Il valore dei dati

L’analogia col petrolio

Pulizia dei datiStrano a dirsi, ma il petrolio è una commodity, una delle più importanti al mondo, ma comunque una commodity. Come tale, è fungibile, cioè tutte le unità di essa sono equivalenti o quasi, indipendentemente da chi le produce. Sono quindi essenzialmente indistinguibili e intercambiabili.

In particolare, il petrolio è una materia prima, o ancor meglio una risorsa naturale da estrarre tramite perforazione. Una volta estratto, il petrolio deve essere raffinato e separato in vari tipi di prodotti per uso commerciale, e sono raffinazione e separazione a rendere il greggio prezioso.

Quindi, a rigor di logica, non è del tutto esatto dire che i dati sono il nuovo petrolio.

Un grande MLV si può paragonare al massimo, e molto generosamente, a Jett Rink, mentre non ci sono LSP che si possano paragonare a nessuna delle sette sorelle, o all’Eni che è pur sempre un operatore di primaria importanza nel settore petrolifero, soprattutto per quanto riguarda le tecnologie di estrazione e raffinazione. In generale, un SLV si potrebbe paragonare al proprietario di uno o due pozzi di petrolio.

Al contrario, le GAFAM ricordano molto da vicino le sette sorelle. Come le grandi compagnie petrolifere, le GAFAM controllano le piattaforme dalle quali estraggono i dati e hanno le capacità tecniche e tecnologiche per raffinarli e separarli e trarne profitto. Generalmente, questo profitto non viene dalla vendita dei dati, ma dal mettere le piattaforme da cui vengono estratti al servizio dei clienti in modo che questi possano beneficiare direttamente dei dati per i loro scopi. Come per le grandi compagnie petrolifere, la principale fonte di reddito non è la materia prima, ma i suoi derivati primari. Proprio come le aziende dell’industria della plastica usano i derivati del petrolio per realizzare sofisticati prodotti da mettere in commercio, le società di marketing usano i dati per vendere servizi di profilazione, marketing, pubblicità e altro.

Uso dei dati linguistici

Per tipo, uso e, soprattutto, volume, i dati linguistici non sono assolutamente paragonabili ai dati che vengono comunemente indicati come il nuovo petrolio, i Big Data.

Eppure, i dati linguistici sono cruciali per l’elaborazione del linguaggio naturale (NLP). L’NLP è un appassionante settore della linguistica, dell’informatica e dell’intelligenza artificiale che riguarda più l’apprendimento automatico che lo sviluppo software. Oggi, praticamente tutti gli ambienti di chat, gli assistenti personali e le app vocali usano l’NLP per alimentare le loro interfacce linguistiche, e le soluzioni NLP basate su cloud sono sempre più richieste, perché permettono di ridurre i costi complessivi e migliorare la scalabilità.

I dati per le applicazioni NLP sono costituiti da dataset linguistici adeguatamente curati del linguaggio umano naturale scritto e parlato.

La data curation di dati specifici può richiedere molto tempo. Fortunatamente, data la crescente importanza dell’NLP, sono molti i dati liberamente disponibili per diverse applicazioni che vanno dalla sentiment analysis (per lo più attraverso e-mail anonimizzate), al riconoscimento vocale e ai chat bot. Sono liberamente disponibili anche diversi dataset vocali per gli assistenti virtuali, i navigatori satellitari e in generale i sistemi ad attivazione vocale.

Non c’è da sorprendersi, quindi, che si preveda che il mercato mondiale dell’NLP possa crescere da 11,6 miliardi a 35,1 miliardi di dollari entro il 2026, con un tasso di crescita annuale del 20,3%.

L’NLP è un sottoinsieme dell’IA mentre la traduzione automatica lo è dell’NLP. Gli algoritmi di NLP e di traduzione automatica elaborano entrambi dati linguistici e per entrambi sono necessari dati di elevata qualità per un soddisfacente addestramento dei modelli e il successivo funzionamento.

La data curation è essenziale, poiché l’annotazione permette di migliorare il corpus a disposizione arricchendolo di informazioni di livello superiore, permettendo altresì agli algoritmi di machine learning di costruire associazioni tra il significato reale e quello trasmesso e individuare nuovi modelli quando si presentano nuovi dati.

Un’elevata qualità è determinante perché, per via del grande volume di dati richiesto, anche un piccolo errore nei dati può condurre a errori su larga scala nel prodotto finale.

Mentre per le applicazioni generaliste di NLP non servono dati specifici, per i modelli di traduzione automatica ad uso specialistico sono necessarie grandi quantità di dati specifici di elevata qualità.

I dataset per applicazioni NLP generaliste provengono di solito dalle fonti più diverse, purché rappresentative del mondo reale, anche da dispositivi IoT. Si tratta di dialoghi di film, e-mail, comunicati, articoli scientifici, riviste, libri, manoscritti, materiale d’archivio, risorse elettroniche, audio e video, messaggi e post sui social media ecc.

I dataset per applicazioni NLP specializzate, invece, sono più difficili da raccogliere via scraping o crawling. È molto più facile, ed economico, raccogliere più dati paralleli possibili direttamente dai proprietari, in genere clienti e fornitori di servizi linguistici.

D’altronde, tornando alla similitudine con l’industria petrolifera, cosa potrebbe fare il proprietario di uno o due pozzi di petrolio con il petrolio estratto da essi, senza le risorse necessarie per raffinarlo e separarlo? L’opzione migliore è cercare di piazzarlo sul mercato delle materie prime. Naturalmente, non è così semplice come si può pensare, è necessario rivolgersi a un professionista e accettare i rischi che questo comporta.

Gli LSP esperti di MT, invece, hanno sempre la possibilità di sfruttare i propri dati per configurare uno o più motori di traduzione automatica. Questa, almeno, è la vulgata dei tanti volponi in circolazione, che non aspettano altro che qualche pollo da spennare. Per esser chiari, ognuno può scegliere di dare i propri soldi a chi vuole, e poi, magari, lamentarsi di essere stato ingannato, in fondo, sono loro a rimetterci. Ma addestrare un algoritmo di NMT non è una passeggiata, né più né meno di quanto lo fosse addestrare un algoritmo di SMT.

In linea di principio, un dataset di configurazione dovrebbe essere:

  1. Accurato: i dati e i metadati in esso sono corretti, specifici e ristretti.
  2. Completo: i dati sono privi di lacune.
  3. Aggiornati: i dati sono pertinenti allo scopo per cui è stato sviluppato l’algoritmo e al risultato atteso.

Naturalmente, per potersi definire di elevata qualità e presentare queste caratteristiche, un dataset deve essere stato accuratamente ripulito.

Pulizia

Per potersi definire di elevata qualità, un dataset deve essere “pulito”. Ripulire un dataset significa aver individuato e rimosso eventuali errori o duplicati, nonché eventuali informazioni obsolete, errate o addirittura irrilevanti.

Quando si ha a che fare con dati linguistici, provenienti da scraping o da memorie di traduzione, i problemi “meccanici” da controllare sono ripetizioni, duplicazioni e corrispondenze multiple (nelle TM), allineamento e segmentazione errati (nelle TM), codifica errata e spazi extra, mentre i tipici errori linguistici riguardano traduzioni errate, omissioni, errori lessicali e morfologici. Su entrambi i fronti si possono poi presentare errori ortografici, diacritici e di punteggiatura. Anche date, numeri e formule dovrebbero essere normalizzate insieme a maiuscole e minuscole.

Problemi a parte sono i conflitti terminologici e i dati specifici di dominio (di solito traduzioni imprecise), che richiedono il trattamento manuale.

In generale, la pulizia dei dati inizia con la selezione e la rimozione dei duplicati, e continua con la correzione dei dati incompleti o corrotti, per finire, dove possibile, con l’annotazione.

L’anonimizzazione non è sempre necessaria. Quando si rende davvero necessaria, richiede l’identificazione e la rimozione dei dati personali, attività pesante che oltre a prendere tempo comporta parecchio lavoro manuale e una costante supervisione. D’altra parte, prestare attenzione ai dati personali è come prestarla alle questioni di genere e al cosiddetto bias, è roba da conferenze e dissertazioni più o meno dotte su qualche ambizioso blog. È un po’ come credere che rimuovere la carne di maiale dai menu nei paesi musulmani o quella di mucca dai menu nei paesi indù sia di per sé sufficiente ad aumentare le vendite. Di tutti i compiti di manipolazione dei dati, l’anonimizzazione è il più impegnativo e costoso, e dovrebbe essere eseguito solo quando è strettamente necessario. Nella maggior parte dei casi, nella pratica tipica dell’industria della traduzione che coinvolge ancora pesantemente e largamente gli esseri umani, non lo è.

Comunque, in generale, per quanto disporre di dati puliti sia essenziale per l’IA e, di conseguenza per l’NLP e la MT, la pulizia è spesso trascurata e superficiale, soprattutto a causa dei costi e del lavoro che comporta e, ovviamente, del tempo che richiede. Infatti, anche nella massima urgenza della pandemia, la raccolta e la pulizia dei dati nel dominio SARS-COV-2 e l’addestramento dei modelli linguistici hanno richiesto diversi mesi.

Inoltre, di tutti i compiti di manipolazione dei dati, l’anonimizzazione è il più lungo, impegnativo e costoso, e dovrebbe essere eseguito solo quando strettamente necessario. Nella maggior parte dei casi, nella pratica tipica dell’industria della traduzione che coinvolge ancora pesantemente e largamente gli esseri umani, non lo è.

Sfortunatamente, troppe persone sembrano ancora non preoccuparsi dei professionisti delle lingue che sono gli utenti finali del prodotto grezzo della traduzione automatica. Allo stesso modo, troppe persone in questo settore si sono concentrate per troppo tempo solo sul marketing e sulle vendite, accogliendo entusiasticamente qualsiasi castroneria linguistica che gli acquirenti propongono.

Trarre profitto dai dati

La crescente bolla dei dati e la datificazione stanno producendo un nuovo interesse: come fare soldi con i dati prodotti o raccolti.

Contrariamente a quanto alcuni sostengono e vorrebbero farci credere, il valore economico dei dati linguistici non dipende, come per altri tipi di dati, dalla loro destinazione d’uso. Il valore dei dati di impresa, per esempio, deriva dalle inferenze che se ne possono derivare.

Per anni, i venditori di strumenti di traduzione hanno coltivato l’idea che le memorie di traduzione fossero cespiti. E praticamente tutti gli LSP l’hanno bevuta. Questa idea derivava dalla richieste di sostanziosi sconti avanzate per ripetizioni, full match e fuzzy match, che permettevano agli LSP di monetizzare i dati in loro possesso. Col tempo, però, man mano che sempre più clienti prendevano confidenza con queste tecnologie, anche molti di loro hanno cominciato a loro volta a richiedere sconti, al pari dei clienti più importanti, che per primi l’avevano fatto. Oggi la pressione sui prezzi è tale che questi “recuperi” non sono più sufficienti a sostenerla.

Se, infatti, la domanda di dati è forte, l’offerta lo è altrettanto, ed è per lo più gratuita ed esiste un gran numero di siti che elencano gli archivi da cui poter estrarre i dati che servono, gratuitamente. Questo è vero sia per i dati strategici, quelli cioè da cui ricavare le inferenze di cui sopra per determinare il futuro di un’azienda, sia per i dati testuali e vocali utilizzati per le applicazioni di NLP. Non si tratta certo di domini verticali, per i quali le aziende devono continuare a provvedere da sole ai dati che occorrono loro. Tuttavia, molte aziende mancano ancora di una strategia sui dati che è necessaria per affrontare IA e ML. Inutile dirlo, la maggior parte delle PMI non ha un ufficio che si occupi di data science e questo, alla fine, impedisce loro di comprendere il valore dei dati. Dati ‘ordinari’, comunque.

Per questo motivo, secondo alcuni, starebbe emergendo un nuovo genere di società di servizi il cui core business è costruito intorno ai dati. Forniscono business intelligence a partire dai dati dei clienti per permettere loro di intraprendere nuove iniziative commerciali sulla base di analisi avanzate. Questi servizi sono raccolti sotto l’etichetta Data Science as a Service (DSaaS) e sono, di fatto, un modo di esternalizzare l’analisi dei dati. Sono pensati per offrire servizi di data science alle aziende del tutto prive o a corto di esperti nell’analisi dei dati (data scientist).

Si tratta di un servizio, con relativa tecnologia, ancora abbastanza di nicchia, e non è chiaro se si tratta solo dell’ennesima furbata linguistica e quindi dell’ennesima moda o se sarà il business del prossimo futuro.

Se il DSaaS non è solo l’ennesima furbata, permetterà sì di monetizzare più facilmente i dati linguistici, ma solo, e tanto per cambiare, ai clienti più importanti (tipicamente GAFAM et al.) per i quali le società di servizi accumuleranno dati su dati azzerandone il valore per garantirsi la loro quota di mercato. Per monetizzare i dati in proprio possesso attraverso i DSaaS, ci si dovrà muovere subito e molto velocemente, ancorché in mancanza di ogni certezza. Inoltre, per suscitare un qualche interesse, i dataset da offrire dovranno essere ricchi e molto verticali, il che esclude di fatto tutti o quasi gli LSP.

Volete sempre inseguire il mito dei dati?

Autore: Luigi Muzii

Luigi Muzii

Lascia un commento