Jaime D’Alessandro per “la Repubblica”
«Diventeremo i padroni della Torre di Babele. Grazie alle traduzioni istantanee, nel giro di dieci anni le barriere linguistiche non esisteranno più». Fra dieci anni quindi, nel 2026, il mondo cambierà ancora e stavolta in una maniera radicale.
Lo sostiene Alec Ross in The Industries of the Future (Simon & Schuster) da oggi nelle librerie americane. Nato nel 1971, Ross è stato consulente per l’innovazione di Hillary Clinton quando ricopriva la carica di Segretario di Stato.
Al suo sesto libro, ora che insegna alla Columbia University, analizza un settore dalla crescita esponenziale che in numeri vale un miliardo di traduzioni richieste da duecento milioni di persone ogni giorno.
La sua deduzione, considerando gli ultimi progressi, è che presto arriveremo ad indossare degli auricolari capaci di comprendere qualsiasi lingua restituendola nella nostra in tempo reale. Miracolo dovuto ai bacini di dati nel cloud, a quella nuova scienza chiamata “deep learning” che permette alle macchine di apprendere con l’esperienza divenendo sempre più precise e alle reti di comunicazione mobile di prossima generazione.
Quattro anni fa poteva suonare come un azzardo, con il solito vantaggio delle previsioni a lungo termine che difficilmente si possono smentire nell’immediato. Stavolta però le cose potrebbero anche non stare così. «Al traduttore universale forse ci arriveremo anche prima», racconta Lilian Rincon, a capo del gruppo di programmatori che lavora alle traduzioni istantanee di Skype Translator di Microsoft.
Lanciato a fine 2014, permette di comunicare verbalmente e all’istante dall’inglese al tedesco, allo spagnolo, cinese, francese, portoghese e italiano. E viceversa. «Davvero, nessuno pensava che i progressi sarebbero stati tanto veloci» sottolinea lei.
Trent’anni, nata e cresciuta in Venezuela, a nove anni è arrivata a Vancouver quando la città era presa d’assalto dagli immigrati cinesi. Non parlava una sola parola di inglese, né di mandarino malgrado uno dei genitori sia cinese. «È stato difficile. Ma sinceramente non credo che nessuno dovrà più passare per quel che ho passato io».
Il problema maggiore in questo campo come in altri basati sull’apprendimento delle macchine — si va dal riconoscimento dei singoli elementi di una foto alla “vista” digitale delle macchine con pilota automatico — è la massa di dati necessaria per permettere ai computer di imparare a distinguere un fonema dall’altro come il bordo di un oggetto in un’immagine.
È il primo mattone per arrivare alla comprensione della complessità, poco importa che siano gli elementi di una scena di un film o le frasi di un discorso. «Dati, tanti dati. Così si intuisce il contesto di una frase o il senso di una richiesta», spiega Aparna Chennapragada, a capo dei prodotti di Google. «Nel 2011 i sistemi di riconoscimento vocale non capivano nulla a causa del mio accento indiano. Oggi abbiamo raggiunto un’efficacia che sinceramente non credevo possibile».
Ma la quantità di parlato necessaria per tradurre una lingua in un’altra è immensa. E alti sono gli investimenti necessari. La Nuance, che fornisce la sua tecnologia di riconoscimento vocale a buona parte dei colossi dell’hi-tech, Apple inclusa, spende 300 milioni di dollari l’anno nella biometria vocale, quella che permette di distinguere anche il timbro unico delle nostre voci. E poi c’è il problema degli errori, necessari all’inizio.
«Skype Translator non è stato ancora lanciato in Giappone perché gli errori sono meno tollerati e il servizio potrebbe non fare breccia», rivela Lilian Rincon. Servono più dati e più tempo. «Noi però quest’idea di cambiare il mondo ce l’abbiamo», conclude. «Cambieremo tutto». E nessuno avrà i problemi che ha avuto lei quando era bambina. Sempre che queste tecnologie diventeranno infallibili e universali come molti credono o forse, semplicemente, sperano.