Una generazione dopo

FidoNetSul finire del 1990, avevo un portatile Epson 386 con 2 MB di RAM, 20 MB di disco fisso e schermo rigorosamente in bianco e nero, e un modem 3Com a 9600 bit/s che usavo per lavorare come localizzatore. Allora ero occupato presso la più importante società di telecomunicazioni del Paese. Dopo l’orario di ufficio, accendevo il portatile e mi collegavo a FidoNet per accedere alla BBS del mio principale cliente oltreoceano. Da lì scaricavo i file dei nuovi incarichi che mi venivano assegnati e caricavo i file di quelli completati.

Tramite FidoNet era possibile anche scambiarsi informazioni di varia natura, prevalentemente di interesse tecnologico, come per esempio sapere chi stesse lavorando a che cosa in determinati ambiti. Lavorare per un’azienda di telecomunicazioni mi offrì la possibilità di accedere all’Internet di ricerca tramite la quale accedere a numerose altre risorse.

Quando fui chiamato a occuparmi di coordinare la traduzione della documentazione di un imponente sistema di gestione delle reti di telecomunicazioni, mi si posero diversi problemi, tra cui quello di trattare quanto più materiale possibile, rapidamente. L’aspetto economico era sempre importante, ma non vincolante.

La soluzione più ovvia, ancorché tutt’altro che immediata, era la traduzione automatica. Non erano molte, infatti, le informazioni sulle piattaforme disponibili e solo dopo molte ricerche arrivai a quella che, in quel momento, era l’espressione dello stato dell’arte. Adottarla, però, si rivelò molto più arduo del previsto e fu preferito un prodotto per PC appena rilasciato che si era comportato piuttosto bene nel corso dei test a cui era stato sottoposto.

Già allora, però, nonostante non fosse stato richiesto di rinegoziare il trattamento economico concordato, ma solo di utilizzare il materiale prodotto con la traduzione automatica, la manifesta incapacità di attenersi alle istruzioni impartite sui primi campioni distribuiti e l’avversità verso il tipo di incarico fecero ripiegare verso l’uso della traduzione automatica a soli fini di gisting.

Non molto tempo dopo, la comparsa dei primi strumenti di traduzione assistita offrì un altro orco verso cui scatenare le proprie paure. Poi, la diffusione dell’Internet e del Web, con la comparsa dei primi motori online, riportò l’attenzione sulla traduzione automatica, al punto che, in un convegno internazionale organizzato dall’Istituto di Lingue della Facoltà di Scienze Politiche dell’Università degli Studi di Roma “La Sapienza” tenutosi nel maggio del 1999, ben tre interventi erano incentrati sulla traduzione automatica avendo come riferimento questi motori. E come obiettivo quello di ridicolizzarli.

Non sono affatto rimasto sorpreso, quindi, nel sentire Andy Way affermare, nel suo intervento di apertura dell’EAMT Workshop on Teaching MT to Translator Trainers, che, ultimamente, buona parte del suo lavoro consiste nello sfatare miti e pregiudizi ancora fortemente radicati in larga parte del settore e negli ambiti accademici. D’altronde, ci sono voluti vent’anni per raggiungere un’ampia diffusione degli strumenti di traduzione assistita all’interno dei corsi curriculari di traduzione.

Andy Way ha brillantemente suggerito di usare anche nei corsi di traduzione l’esempio messo a punto nel 1997 da Kevin Knight per gli allievi dei corsi di informatica, pubblicato in un articolo per la rivista dell’American Association for Artificial Intelligence. L’esercizio di Kevin Knight ruotava intorno alla traduzione di una frase dal centauriano all’arturano basandosi su un corpus parallelo nelle due lingue aliene.

Nella sua conclusione, citando — e correggendo — David Bellos, Andy Way ha ricordato che l’esercizio proposto da Knight fa capire come le macchine emulino il comportamento umano. Non viceversa.

Al workshop hanno preso parte esponenti di diversi atenei aderenti alla rete EMT, anche se non da quelli più prestigiosi che pure non vantano insegnamenti della traduzione automatica. Né ce n’erano da alcuna delle tre facoltà vocazionali italiane. La cosa, però, non è sorprendente dato che, come è emerso dalle presentazioni di Dorothy Kenny e di Sharon O’Brien, l’insistenza sugli aspetti teorici e più tradizionali è ancora molto presente e radicata anche alla DCU. In un corso annuale di otto mesi (dodici settimane) articolato su due semestri, infatti, la traduzione automatica rientra in uno dei cinque moduli obbligatori, quello dedicato alle tecnologie. Degli altri moduli, due, di durata minore, sono orientati uno alla pratica e un altro alla professione, un altro è dedicato alla terminologia e l’ultimo, apparentemente il più corposo, alla teoria della traduzione. Sono tuttavia previsti insegnamenti a scelta dello studente tra localizzazione, traduzione di materiale audiovisivo e linguistica dei corpora.

Il modulo dedicato alle tecnologie prevede 6 ore di lezione sulle memorie di traduzione e 12 ore di laboratorio e 10 ore di lezione sulla traduzione automatica, di cui due sulla traduzione a regole, due su quella statistica, due sulle metriche di valutazione e due sul post-editing, con 10 ore di laboratorio.

Non è solo la modesta quantità di tempo a suscitare qualche perplessità, ma anche l’approccio ad alcuni temi, in particolare il post-editing, considerato ancora come “solo un’altra forma di revisione”. Nel corso del workshop, però, Sharon O’Brien ha sollecitato il dibattito con e tra i partecipanti circa il miglior momento di introduzione del tema, lo sviluppo di quali competenze (traduttive, autorali o di settore) e l’approccio metodologico. A questo riguardo, lascia perplessi anche l’insistenza sul post-editing come forma di valutazione della traduzione automatica. Per il resto, Sharon O’Brien ha riproposto l’approccio alla base del TAUS DQF, che, sebbene segua ancora un costoso criterio ispettivo, resta tuttora il più equilibrato metodo di valutazione.

Proprio a questo riguardo, nella sessione pratica, Tony O’Dowd ha richiamato l’utilità delle tre metriche che KantanMT propone ai suoi utenti per valutare le prestazioni del motore di traduzione automatica (BLEU, F-Measure e TER) e in particolare la loro combinazione. Benché non fosse probabilmente nelle sue intenzioni, l’uso di questa combinazione è stato l’aspetto più interessante di tutto il workshop per le applicazioni cui potrebbe condurre.

La killer application in fatto di qualità della traduzione potrebbe infatti ruotare intorno a tre moduli automatici o semi-automatici integrati tra loro: uno di profilazione del contenuto (basato su requisiti precedentemente raccolti), uno di ispezione automatica del tipo di quelli già disponibili in commercio e uno di valutazione linguistica basato appunto su una combinazione di indice di correlazione, precisione e recupero e distanza di edit.

Di recente, poi, KantanMT ha implementato una funzione che permette di utilizzare modifiche incrementali ai dati per l’addestramento dei motori e accelerarne la messa a punto.

La parte deludente del workshop è stata quella dedicata a MT@EC per via delle molte perplessità circa le modalità con cui i cospicui fondi a disposizione delle istituzioni europee vengono spesi a vantaggio dei cittadini dell’Unione. Per esempio, oltre a chiarire che la piattaforma è ad uso esclusivo delle istituzioni europee e, con limitazioni, agli atenei aderenti alla rete EMT che ne fanno richiesta, Markus Foti ha dichiaratamente ammesso che, a dispetto della lunga esperienza delle istituzioni europee con la traduzione automatica, l’atteggiamento dei traduttori della DGT è ancora molto variegato e va dall’aperta ostilità, non solo nei più anziani, alla massima apertura. Dal momento che, a fronte di una domanda specifica in tal senso, Markus Foti ha affermato che i collaboratori esterni non contribuiscono ai dati che alimentano il motore, questa variabile indipendente mina l’intero investimento.

Intendiamoci, dato il livello delle argomentazioni e delle conoscenze degli avversari della traduzione automatica e soprattutto, del post-editing, siano essi veri, presunti o di comodo, gli sforzi di Andy Way e di quanti si spendono quanto meno per correggere certe interpretazioni acquistano ancor più valore.

Ad ogni modo, uno dei problemi maggiori con la traduzione automatica statistica rimane quello dei dati, dall’acquisizione alla manutenzione, all’aggiornamento dei motori passando per l’integrazione della terminologia e la modifica delle phrase table. Si tratta di attività per le quali nemmeno i corsi in essere alla DCU offrono adeguata formazione, lasciando quindi aperte lacune che diventano ogni giorno più ampie e profonde, proprio mentre si aprono sempre maggiori e migliori opportunità per i linguisti.

Un’ultima annotazione riguarda l’assenza dal workshop delle tre facoltà vocazionali italiane. Evidentemente la ripartizione geografica favorisce una naturale spartizione del bacino di utenza, e la costituzione di un vero e proprio cartello sotto l’ombrello protettivo di un organismo sovranazionale che, evidentemente, è attento alla concorrenza solo quando fa notizia, non favorisce la crescita, di nessun tipo.

Avatar

Autore: Luigi Muzii

Luigi Muzii