Blog

L’oscura e controversa importanza dei metadati

LazinessI metadati sono dati che forniscono informazioni su altri dati per descrivere una risorsa e favorirne l’individuazione, l’identificazione e la gestione.

I metadati si possono creare automaticamente o manualmente. I più semplici sono quelli generati automaticamente a partire dalla data di creazione di una risorsa, il suo autore, la data dell’ultimo aggiornamento, la dimensione e il tipo di file.

Descrivere contenuto e contesto dei dati ne aumenta l’utilità e migliora l’esperienza utente.

Inoltre, i metadati aiutano a organizzare, identificare e conservare le risorse.

Eppure, coloro che più di altri ne beneficerebbero spesso ne sottovalutano l’importanza e li ignorano.

Il Web semantico è un esempio perfetto. È rimasto incompiuto, anche se continua a essere ampiamente rappresentato e vagheggiato. Dovrebbe funzionare sfruttando i metadati delle pagine, il loro contenuto e le relazioni tra loro.

Queste descrizioni dovrebbero permettere a programmi automatici di attribuire un significato ai vari contenuti, favorirne la conoscenza e l’utilizzo. Molte delle tecnologie per realizzare questi programmi esistono già e i metadati sono la parte mancante.

Eppure, già nel 2001, in un breve saggio, Cory Doctorow enumerò i limiti dei metadati e le relative cause, sottolineandone la fragilità. Un’osservazione in particolare vale forse più delle altre: le persone sono pigre; la pigrizia, cioè, è la causa principale dell’assenza di metadati sui contenuti.

Bisogna anche dire, però, che i metadati invecchiano rapidamente e sono soggetti a diventare inutili con il passare del tempo se i dati che descrivono non vengono regolarmente e tempestivamente aggiornati.

Ma quale importanza rivestono i metadati per la traduzione? Qualsiasi progetto, e la traduzione non fa eccezione, si dovrebbe avviare a fronte di un documento formale di incarico che raccolga i dati fondamentali e lo descriva sinteticamente, il cosiddetto project charter. Purtroppo, ai “project manager” di settore rarissimamente si insegna che questo è un passaggio essenziale, e così i dati di progetto già scarsi e parziali diventano rapidamente irrilevanti.

I “project manager”, però, non sono i soli da stigmatizzare. Oggi, quasi tutti dipendono fortemente dai TMS ed è un peccato che la maggior parte di questi non preveda alcun meccanismo per indurre alla compilazione di un vero project charter, con i relativi metadati. I produttori di TMS potrebbero introdurre strumenti di profilazione che utilizzino liste dinamiche i cui elementi siano ricavati dai database dei CMS, dei sistemi di CRM ed ERP ecc.

Inoltre, un project charter è importante per tutti coloro che lavorano a un progetto di traduzione, perché permette loro di gestirlo al meglio in quanto le informazioni che contiene sono indispensabili per leggere e comprendere i dati prodotti via via, compresi, anzi soprattutto, quelli linguistici. Questi ultimi, poi, sono pressoché inutili senza i relativi metadati che permettono di raccoglierli, organizzarli, pulirli e riutilizzarli con i motori di traduzione automatica.

Inoltre, i dati generati automaticamente non sono sufficienti per ottenere dati statistici utili a ricavare KPI attendibili e derivarne un’inferenza qualsiasi.

Infine, trattare dati, per quanto in grande quantità, non basta per parlare di “big data”. Di fatto, per esser tali, devono essere dati così estesi per volume, velocità, varietà e complessità da richiedere strumenti e metodi analitici specifici per ricavarne un qualche valore. I tradizionali strumenti di elaborazione e analisi dei dati non lo permettono e, anche per questo, la sola espressione “translation big data” è, a dir poco, una sesquipedale sciocchezza; non importa quanti dati un TMS o un LSP possono trattare, non saranno mai abbastanza per inferire un quadro realistico.

Comunque, oltre che per raccogliere dati utili a ottenere KPI attendibili, i metadati possono servire a meglio comprendere i dati linguistici, a servirsene e a produrne di altri. D’altronde, tutti gli strumenti di traduzione aggiungono diversi tipi di metadati ai dati linguistici durante la loro lavorazione. I programmi per la gestione delle memorie di traduzione aggiungono metadati a ogni segmento, e il florilegio di dati descrittivi in una scheda terminologica è fatto anch’esso di metadati, insieme a quelli generati automaticamente, così come le annotazioni al materiale di riferimento; in tutti questi casi, si tratta di metadati per la rappresentazione della conoscenza.

Per esempio, se un programma è in grado di riconoscere il tipo di file sorgente, e aggiungere automaticamente la relativa annotazione, questa può rivelarsi utile in successive analisi. Lo stesso vale per il nome dell’autore, la data dell’ultimo aggiornamento o il codice progetto, magari generato automaticamente o semiautomaticamente sulla base dei dati inseriti dal project manager, magari con l’aiuto di una lista. Oppure si possono metadati specifici ai segmenti contenenti costanti o elementi da non tradurre.

I metadati appartengono a un campo al quale si applicano normalmente, e con successo, gli standard. Purtroppo, l’esperienza, soprattutto quella più recente, insegna che gli standard, in questo settore, sono oggetto di grandi discussioni, ma decisamente poco amati e poco applicati specialmente per quanto attiene al software. Per quanto triste, la ragione è semplice: l’ambito è così verticale da riflettere lo stato del settore di riferimento, quindi è anch’esso frammentatissimo e senza un solo operatore con la massa critica necessaria a regolare il mercato. Questo si traduce in un’accettazione solo di facciata degli standard e in implementazioni diverse per vincolare i clienti.

Nell’immediato futuro, sarà possibile utilizzare un modello linguistico a base neurale basato sulla lingua sorgente che permetta di stimare automaticamente la somiglianza di un testo ai dati di riferimento e, quindi, la sua idoneità alla traduzione automatica. Arricchire i dati di ingresso con metadati di profilazione e annotazioni linguistiche per i sistemi neurali semplificherà enormemente le cose.

Il che significa che è arrivato il momento di unificare i formati dei metadati e cominciare a usarli. Per davvero.