Onfaloscopia

Nell’omonimo capitolo di The Sense of Style, Steven Pinker definisce la “maledizione della conoscenza” come “la difficoltà di vedere le cose per come appaiono a coloro che non ne hanno conoscenza”, e la assimila all’asimmetria informativa.

Si tratta, in altre parole, di quella distorsione cognitiva che favorisce i più informati rispetto ai meno informati, di cui, però, secondo Pinker, i venditori non traggono pienamente vantaggio, determinando il valore dei propri beni come se i clienti disponessero delle informazioni necessarie a valutarne la qualità al pari loro.

Il male di un intero settore

Disporre di quante più informazioni possibili e saperle sfruttare appieno è ciò che fa la differenza in una trattativa, soprattutto in un mercato estremamente frammentato, come quello della traduzione, in cui, infatti, i maggiori LSP sono quelli che dispongono di maggiori informazioni e della capacità di accedervi e servirsene.

Tuttavia, queste informazioni non riguardano necessariamente il mercato né sono esclusivamente finanziarie.

L’industria della traduzione è tradizionalmente affetta da asimmetria informativa, derivante per lo più da un problema di segnalazione, e causa a sua volta una disfunzione negoziale.

Questa è una delle cause del calo dei compensi che si registra ininterrottamente negli ultimi anni. Purtroppo, la modesta comprensione delle dinamiche economico-finanziarie di molti operatori del settore non ha fatto che peggiorare la situazione. Il tasso di crescita annuale dell’industria della traduzione, infatti, è dovuto in gran parte alla enorme crescita dei volumi, piuttosto che a una pure raggiunta maggiore consapevolezza dell’importanza della traduzione e dei relativi servizi. Questa è dovuta peraltro principalmente ai servizi di traduzione automatica on-line, che hanno reso universalmente accessibile la traduzione, con tutte le limitazioni del caso.

I compensi non sono in calo per via della costante espansione del settore, ma per la costante riduzione del costo marginale della traduzione, sempre più prossimo allo zero, e alla mancata o limitata crescita della sua utilità marginale.

I prezzi sono determinati da utilità marginale e costo marginale, e questa dinamica spiega chiaramente non solo perché il costo marginale dell’acqua è di gran lunga inferiore a quello dei diamanti, ma anche perché la qualità di un bene o servizio è intrinseca ad esso e non è necessariamente funzione del prezzo di vendita.

Costo marginale, utilità marginale e asimmetria informativa non sono materia di insegnamento nelle scuole di traduzione, in cui, invece, la qualità è un tema fondamentale, sebbene non in prospettiva economica, e questo è il motivo per cui la traduzione ha finito con l’essere un prodotto indifferenziato proprio sotto l’aspetto qualitativo, divenendo una commodity.

La qualità è un elemento che si aggiunge a domanda e offerta, e in un enorme, indifferenziato, mercato globale, sono sempre presenti, numerosi e molto attivi i fornitori di prodotti di bassa qualità, in grado di garantire livelli di offerta ben superiori alla domanda.

Così, la legge di Gresham trova applicazione non solo in ambito monetario, ma anche nel settore della traduzione, con i cattivi traduttori a scacciare quelli buoni.

Ci sono, è vero, nicchie di mercato in cui la domanda è così precisa, delicata e complessa, ma elevata, a fronte di un’offerta decisamente modesta, e i clienti sono quindi disposti a corrispondere compensi superiori alla media, tuttavia ancora inadeguati al livello di competenze richiesto. Tutto questo fa sì che la traduzione resti una professione a basso reddito.

Un tempo, la traduzione era la tipica attività da coda lunga, ma la tecnologia contribuisce a ridurre ulteriormente i costi marginali, rendendo così ricavi e redditi non adeguati a competenze e impegno richiesti e la concorrenza sempre più instabile e asimmetrica.

I dati sono cespiti?

I dati linguistici (basi terminologiche, corpora, memorie di traduzione) contribuiscono all’asimmetria informativa, giacché gli LSP se ne servono per fidelizzare i clienti promettendo loro maggiore qualità e rapidità di consegna, e a imporre riduzioni nei compensi da corrispondere ai loro fornitori per eventuali ripetizioni e corrispondenze parziali o complete.

Tuttavia, dal momento che l’industria della traduzione è estremamente frammentata e in gran parte dominata da intermediari che spesso aggiungono poco o nessun valore ai prodotti che acquistano dai loro fornitori, i dati linguistici rappresentano un cespite solo per il loro valore nominale, vale a dire per quanto sono stati pagati.

Se iscritti tra gli attivi, i dati dovrebbero essere dotati di un valore intrinseco, ma in realtà non è necessariamente così, poiché, in questo caso, il loro valore è funzione del loro utilizzo, che dipende dalla capacità dell’utente.

Inoltre, per poter essere concretamente iscritti tra gli attivi, e giustificare quindi l’investimento, i dati linguistici devono necessariamente essere corposi e affidabili, cioè essenzialmente puliti. Purtroppo, di solito, la proprietà di questi dati risulta quanto meno incerta e, nel corso dei numerosi passaggi cui sono soggetti nel tempo, il più delle volte, alla fine, risultano anche inquinati quando non proprio danneggiati.

Pulizia e qualità dei dati

Gli ultimi anni hanno visto crescere l’interesse per la Statistical Machine Translation (SMT), specialmente da parte degli LSP, grazie soprattutto alla disponibilità di soluzioni fai-da-te e di piattaforme commerciali a prezzi accessibili, e alla grande, grandissima, talvolta enorme, smisurata quantità di dati linguistici per costruire motori su misura.

Tuttavia, contrariamente alle aspettative, mettere insieme i dati necessari ad allestire un motore SMT solido ed efficace può risultare molto costoso.

Infatti, maggiore è la quantità dei dati, più difficile è pulirli, e anche quando si pensa di disporre i dati puliti, non necessariamente la loro qualità è soddisfacente. La tabella seguente dovrebbe aiutare a chiarire questo concetto.

Pulizia dei dati Qualità dei dati
Numero limitato di fonti attendibili Dati reali
Pertinenza a un dominio(ristretto) Frasi di lunghezza standard
Non meno di 1.000 segmenti Terminologicamente coerente
Stessa codifica Stesso stile di scrittura
Assenza di segmenti vuoti Assenza di errori (sintassi, grammatica, ortografia)
Assenza di errori meccanici (segni diacritici, punteggiatura, maiuscole, ortografia) Traduzioni corrette (a livello lessicale e morfologico, assenza di prestiti)

Per la pulizia dei dati da usare per la SMT ci si può servire di strumenti software, mentre per garantirne la qualità è necessario l’intervento di un professionista con conoscenza approfondita dei dati, che ne curi la rettifica in base allo scopo previsto per essi e al pubblico di destinazione adottando l’opportuna terminologia e un preciso stile redazionale.

Purtroppo, la maggior parte degli LSP non dispone di personale adeguato, spesso nemmeno per gestire un progetto PEMT (post-editing di traduzione automatica).

Terminologia e SMT

I dati linguistici possono essere un asset, quindi, a patto che siano puliti, affidabili, coerenti, corretti e appropriati.

Per la SMT, si possono utilizzare rapidamente ed efficacemente le memorie di traduzione disponibili in formato TMX che si potrebbero ulteriormente integrare con le basi terminologiche disponibili.

L’attività terminologica trova applicazione dalla redazione alla gestione della conoscenza, dalla formazione al marketing e vale sempre la pena investire in essa, trovando riscontro praticamente in ogni attività di impresa. Oggi, poi, con la crescente integrazione dei sistemi aziendali, la terminologia è il principale veicolo di informazione dal branding, fino all’assistenza post-vendita.

Soprattutto se è orientata alla costruzione di linguaggi controllati, l’attività terminologica aiuta il branding e migliora la comunicazione.

Un file TMX può benissimo integrare un glossario multilingue attraverso segmenti contenenti i termini. Alimentando un motore SMT con piccoli segmenti paralleli si possono ottenere migliori risultati, estraendo i termini come traduzioni parziali dai segmenti che presentino la percentuale di somiglianza richiesta.

In questo senso la pulizia dei dati è fondamentale perché, per essere efficaci, i segmenti non devono contenere dati terminologici errati e occorre quindi sostituire eventuali segmenti del corpus contenenti traduzioni imprecise con altri contenenti versioni corrette.

Condivisione dei dati

Perché, allora, condividere i dati? Dopo tutto, 50.000 segmenti possono valere fino a € 150.000 di ricavi…

Inutile sperare che freelancer e LSP condividano i dati linguistici in loro possesso con chicchessia, tantomeno con potenziali concorrenti. Spetta ai clienti reclamare i dati per i quali hanno pagato e pagano, anche indirettamente, e condividerli, nel loro stesso interesse.

Perché non c’è probabilmente modo migliore per acquisire dati nuovi, freschi e puliti o, quanto meno, per farli pulire.