Rosette hi-tech, AI e server nazionali: chi lavora per preservare lingue in via d’estinzione

Immagine in evidenza da Wikimedia

“ll dialetto di Milano? Direi che è un misto di italiano e inglese”. La battuta sintetizza bene l’onnipresenza del caricaturale vernacolo meneghino, versione anni Duemila. Alberto lavora nel dipartimento comunicazione di una società fintech. Trasferito dal sud Italia in Lombardia, diverse esperienze all’estero alle spalle, racconta a cena che in tre anni non gli è mai capitato di sentire una conversazione in milanese. Non ne conosce vocaboli e cadenza se non nelle imitazioni di qualche comico.

In Meridione il dialetto è parlato comunemente accanto all’italiano: persino gli immigrati lo imparano facilmente, per necessità. Nel capoluogo lombardo la realtà è diversa. Ascoltare la lingua di Carlo Porta è raro: probabilmente la perdita è stata favorita dall’arrivo di abitanti provenienti da ogni parte d’Italia, dalla vocazione commerciale della città e dal fatto che parlare solo italiano era sintomo di avvenuta scalata sociale.

Non è una domanda peregrina, dunque, chiedersi quanto a lungo resisterà senza parlanti. Diventerà una lingua morta, da filologi, un po’ come il latino?

7mila lingue, quasi la metà a rischio

Le premesse sembrano esserci. Questo esempio così vicino al nostro vissuto quotidiano è però la spia di una questione più ampia. Il problema non riguarda solo i dialetti. In totale sono infatti oltre settemila, stima lo Undp (il programma delle Nazioni unite per lo sviluppo), le lingue parlate nel globo, alcune da poche centinaia di individui. Il 44% sarebbe in pericolo di estinzione.

Con la globalizzazione, il problema di preservare la biodiversità linguistica – portatrice non solo di cultura, ma di un modo di vedere il mondo – ha cominciato a porsi con maggiore insistenza. Non mancano iniziative di tutela locali, come corsi serali per appassionati e nostalgici, ma con tutta probabilità si tratta di palliativi.

Un supporto fino a poco tempo fa impensabile può arrivare, però, per linguisti e antropologi dalla tecnologia. Probabilmente non è la panacea di tutti i mali. Ma, come vedremo, può aiutare.

Il Rosetta project

Tra i primi programmi digitali al mondo per la tutela delle lingue in via di estinzione c’è il Rosetta project, che da oltre due decenni raccoglie specialisti e parlanti nativi allo scopo di costruire un database pubblico e liberamente accessibile di tutte le lingue umane. Il Rosetta project fa capo a un ente molto particolare: la Long Now foundation (Lnf, tra i membri fondatori c’è il musicista Brian Eno). La Lnf parte da un presupposto: è necessario pensare seriamente al futuro remoto, per non farsi trovare impreparati dallo scorrere del tempo.

Il ragionamento è tutt’altro che banale. “Si prevede che dal cinquanta al novanta per cento delle lingue parlate spariranno nel prossimo secolo”, spiegano gli organizzatori sul sito, “molte con poca o nessuna documentazione”. Come preservarle?

Lo sguardo torna all’Antico Egitto: così è nato il Rosetta Disk, un disco di nichel del diametro di tre pollici su cui sono incise microscopicamente quattordicimila pagine che traducono lo stesso testo in oltre mille lingue. Il modello è la stele di Rosetta, che due secoli fa consentì di interpretare i geroglifici, di cui si era persa la conoscenza. Una lezione che gli studiosi non hanno dimenticato.

Il principio è più o meno lo stesso delle vecchie microfiches universitarie: per visualizzare il contenuto basta una lente di ingrandimento. Non si tratta, insomma, di una sequenza di 0 e 1, quindi non è necessario un programma di decodifica. Il rischio – in Silicon Valley lo sanno bene – sarebbe che il software vada perso nel giro di qualche decennio per via di un cambiamento tecnologico; o (e sarebbe anche peggio) che qualche società privata che ne detiene i diritti decida di mettere tutto sotto chiave, come peraltro avviene per molte applicazioni con la politica del cosiddetto “vendor lock in” (Guerre di Rete ne ha parlato in questo pezzo). Qui, invece, la faccenda è semplice: basta ingrandire la superficie di cinquecento volte con una lente e il gioco è fatto.

Il prezioso supporto è acquistabile per qualche centinaio di dollari, ed è stato spedito anche nello spazio con la sonda spaziale Rosetta dell’Agenzia spaziale europea (nonostante l’omonimia, non si tratta dello stesso progetto). Il disco è collocato in una sfera dove resta a contatto con l’aria, ma che serve a proteggerlo da graffi e abrasioni. Con una manutenzione minima, recitano le note di spiegazione, “può facilmente durare ed essere letto per centinaia di anni”. Resiste, ovviamente, anche alla smagnetizzazione (sarebbe basato su test condotti al Los Alamos National Laboratory, lo stesso del progetto Manhattan di Oppenheimer dove fu concepita la bomba atomica).

Una scelta difficile

Porsi in una prospettiva di lungo periodo pone interessanti domande. Che tipo di informazioni conservare per un futuro nell’ipotesi – speriamo remota – che tutto il nostro sapere, sempre più digitalizzato, vada perso? Meglio preservare la letteratura, le tecniche ingegneristiche, o le cure per le malattie? Un criterio è evidentemente necessario.

La scelta della Long now foundation è stata quella di lasciare ai posteri una chiave di interpretazione utile a tradurre tutto ciò che è destinato a sopravvivere. Ma il progetto comprende anche una sezione digitale, cresciuta nel corso degli anni fino a raggiungere oltre centomila pagine di documenti testuali e registrazioni in oltre 2.500 lingue. I contenuti, si legge sul sito, sono disponibili a chiunque per il download e il riutilizzo secondo i principi dell’open access; anche il pubblico può contribuire alla raccolta inviando materiale di vario tipo. Fondamentale per raccapezzarsi è il ruolo dei metadati (data, luogo, formato e altri elementi dei dati in questione) – ci torneremo più avanti.

Il progetto francese Pangloss

Anche in Europa ci sono progetti di tutela del patrimonio linguistico in piena attività. Per esempio in Francia – non dimentichiamo che la stele di Rosetta (conservata al British Musem di Londra) fu rinvenuta nell’ambito delle spedizioni napoleoniche – esiste il progetto Pangloss, che si propone di realizzare un archivio aperto di tutte le lingue in pericolo o poco parlate e contiene documenti sonori di idiomi rari o poco studiati, raccolti grazie al lavoro di linguisti professionisti su una piattaforma moderna e funzionale battezzata Cocoon.

Attualmente la collezione comprende un corpus di 258 tra lingue e dialetti di 46 paesi, per un totale di più di 1200 ore d’ascolto. I documenti presentati contengono per lo più discorsi spontanei, registrati sul campo. Circa la metà sono trascritti e annotati.

C’è anche un po’ di Italia: il dialetto slavo molisano (parlato nei tre villaggi di San Felice del Molise, Acquaviva Collecroce e Montemitro, in provincia di Campobasso, a 35 chilometri dal mare Adriatico) e il Valoc, un dialetto valtellinese lombardo.

Pangloss è open, sia in modalità “base” sia in quella “pro”. La politica è di apertura totale: per consultare il sito web non è necessario accettare specifiche condizioni d’uso né identificarsi. Non si utilizzano cookie di profilazione, come orgogliosamente dichiarato.

“Il progetto Pangloss è nato negli anni ‘90 e da allora si è evoluto considerevolmente”, dice a Guerre di Rete Severine Guillaume, che ne è la responsabile. “Si tratta di una collezione orale, il che significa che raccogliamo contenuti video e audio che possono anche essere accompagnati da annotazioni: trascrizioni, traduzioni, glosse. Ogni risorsa depositata dev’essere fornita di metadati: titolo, lingua studiata, nome di chi la carica, persone che hanno contribuito alla creazione, data della registrazione, descrizione del contenuto”.

Come analizzare i dati: l’impiego dell’AI

L’intelligenza artificiale ha cominciato a farsi strada anche tra questi archivi digitali. “Abbiamo condotto degli esperimenti sui nostri dati con l’obiettivo di aiutare i ricercatori ad arricchirli”, conferma Guillaume. “Sono stati diversi i test di trascrizione automatica, e due di loro l’hanno già impiegata: per ogni minuto di audio si possono risparmiare fino a quaranta minuti di lavoro, lasciando agli studiosi il tempo di dedicarsi a compiti più importanti. Al momento, insomma, direi che stiamo sperimentando”.

Non è detto che funzioni in ogni situazione, ma “la risposta iniziale è affermativa quando la trascrizione riguarda un solo parlante”, prosegue Guillaume. Il problema sta “nella cosiddetta diarization, che consiste nel riconoscere chi sta parlando in un dato momento, separare le voci, e attribuire ogni segmento audio al partecipante corretto”.

Le prospettive, tutto sommato, sembrano incoraggianti. “Abbiamo cominciato a cercare somiglianze tra due idiomi o famiglie linguistiche: ciò potrebbe rivelare correlazioni che ci sono sfuggite”, afferma la dirigente. Siamo, per capirci, nella direzione della grammatica universale teorizzata da Noam Chomsky, e immaginata da Voltaire nel suo Candido (il dottor Pangloss, ispirandosi a Leibniz, si poneva lo scopo di scovare gli elementi comuni a tutte le lingue del mondo).

Come conservare i dati: il ruolo delle infrastrutture pubbliche

Il problema di preservare il corpus di conoscenze è stato affrontato? “Sì”, risponde Guillaume. “La piattaforma Cocoon, su cui è basata la collezione Pangloss, impiega l’infrastruttura nazionale francese per assicurare la longevità dei dati. Per esempio, tutte le informazioni sono conservate sui server dell’infrastruttura di ricerca Huma-Num, dedicata ad arti, studi umanistici e scienze sociali, finanziata e implementata dal ministero dell’Istruzione superiore e della Ricerca. Vengono poi mandate al Cines, il centro informatico nazionale per l’insegnamento superiore, che ne assicura l’archiviazione per almeno quindici anni. Infine, i dati sono trasferiti agli archivi nazionali francesi. Insomma, di norma tutto è pensato per durare per l’eternità”.

Altro progetto dalla connotazione fortemente digitale è Ethnologue. Nato in seno alla SIL (Summer Institute of Linguistics, una ong di ispirazione cristiano-evangelica con sede a Dallas) copre circa settemila lingue, offrendo anche informazioni sul numero di parlanti, mappe, storia, demografia e altri fattori sociolinguistici. Il progetto, nato nel 1951, coinvolge quattromila persone, e nasce dall’idea di diffondere le Scritture. Negli anni si è strutturato in maniera importante: la piattaforma è ricca di strumenti, e molti contenuti sono liberamente fruibili. Sebbene la classificazione fornita dal sito (per esempio la distinzione tra lingua e dialetto) sia stata messa in discussione, resta un punto di riferimento importante.

I progetti italiani

Non manca qualche spunto italiano. Come, per esempio, Alpilink. Si tratta di un progetto collaborativo per la documentazione, analisi e promozione dei dialetti e delle lingue minoritarie germaniche, romanze e slave dell’arco alpino nazionale. Dietro le quinte ci sono le università di Verona, Trento, Bolzano, Torino e Valle d’Aosta. A maggio 2025 erano stati raccolti 47.699 file audio, che si aggiungono ad altri 65.415 file collezionati nel precedente progetto Vinko. Le frasi pronunciate dai parlanti locali con varie inflessioni possono essere trovate e ascoltate grazie a una mappa interattiva, ma esiste anche un corpus per specialisti che propone gli stessi documenti con funzioni di ricerca avanzate. Il crowdsourcing (cioè la raccolta di contenuti) si è conclusa solo qualche mese fa, a fine giugno. La difficoltà per gli anziani di utilizzare la tecnologia digitale è stata aggirata coinvolgendo gli studenti del triennio delle superiori.

Altro progetto interessante è Devulgare. In questo caso mancano gli strumenti più potenti che sono propri dell’università; ma l’idea di due studenti, Niccolò e Guglielmo, è riuscita ugualmente a concretizzarsi in un’associazione di promozione sociale e in un’audioteca che raccoglie campioni vocali dal Trentino alla Calabria. Anche in questo caso, chiunque può partecipare inviando le proprie registrazioni. Dietro le quinte, c’è una squadra di giovani volontari – con cui peraltro è possibile collaborare – interessati alla conservazione del patrimonio linguistico nazionale. Un progetto nato dal basso ma molto interessante, soprattutto perché dimostra la capacità di sfruttare strumenti informatici a disposizione di tutti in modo creativo: Devulgare si basa, infatti, sulla piattaforma Wix, simile a WordPress e che consente di creare siti senza la necessità di essere maestri del codice. Una vivace pagina Instagram con 10.300 follower – non pochi, trattandosi di linguistica – contribuisce alla disseminazione dei contenuti.

Ricostruire la voce con la AI

Raccogliere campioni audio ha anche un’altra utilità: sulla base delle informazioni raccolte e digitalizzate oggi, sarà possibile domani, grazie all’intelligenza artificiale, ascoltare le lingue scomparse. L’idea viene da una ricerca applicata alla medicina, che attraverso un campione di soli otto secondi, registrato su un vecchio VHS, ha permesso di ricostruire con l’AI la voce di una persona che l’aveva persa.

È accaduto in Inghilterra, e recuperare il materiale non è stato una passeggiata: le uniche prove della voce di una donna affetta da Sla risalivano agli anni Novanta ed erano conservate su una vecchia videocassetta. Nascere molti anni prima dell’avvento degli smartphone ovviamente non ha aiutato. A centrare l’obiettivo sono stati i ricercatori dell’università di Sheffield. Oggi la donna può parlare, ovviamente con delle limitazioni: deve fare ricorso a un puntatore oculare per comporre parole e frasi. Ma la voce sintetizzata è molto simile a quella che aveva una volta. E questo apre prospettive insperate per i filologi.

Come spesso accade, il marketing ha naso per le innovazioni dotate di potenziale. E così, oggi c’è chi pensa di sfruttare l’inflessione dialettale per conquistare la fiducia dei consumatori. È quello che pensano i due ricercatori Andre Martin (Università di Notre Dame, Usa) e Khalia Jenkins (American University, Washington), che nella presentazione del loro studio citano addirittura Nelson Mandela: “Se parli a un uomo in una lingua che capisce, raggiungerai la sua testa. Ma se gli parli nella sua lingua, raggiungerai il suo cuore”.

“I sondaggi dell’industria hanno fotografato il sentiment sempre più negativo verso l’AI”, scrivono gli studiosi, che lavorano in due business school. “Immergendosi a fondo nel potenziale dei dialetti personalizzati, creati con l’AI al fine di aumentare la percezione di calore, competenza e autenticità da parte dell’utente, l’articolo sottolinea [come in questo modo si possa] rafforzare la fiducia, la soddisfazione e la lealtà nei confronti dei sistemi di intelligenza artificiale”. Insomma, addestrando gli agenti virtuali a parlare con una cadenza amica si può vendere di più. C’è sempre un risvolto business, e qui siamo decisamente lontani dagli intenti di conservazione della biodiversità linguistica. Ma anche questo fa parte del gioco.

Partecipa al nuovo crowdfunding di Guerre di Rete!

Diventa Editore di Rete, sostieni un progetto editoriale no profit, e contribuisci al panorama informativo di questo Paese

Info su donazioni.guerredirete.it