Immagine in evidenza da Wikimedia – Nacho Kamenov & Humans in the Loop
Se i dati sono il cibo di cui si alimenta l’intelligenza artificiale, allora ChatGPT e i suoi fratelli hanno davanti a loro una seria minaccia: la carestia. Da qualche tempo gli addetti ai lavori stanno infatti lanciando l’allarme sul rischio che i dati disponibili per addestrare i large language model (i modelli linguistici in grado di generare testi di ogni tipo, come ChatGPT) si stiano esaurendo.
È ciò che in termini tecnici viene definito “data wall”: il momento in cui tutti i dati disponibili online sono stati già utilizzati oppure sono resi inaccessibili. Uno scenario che potrebbe seriamente compromettere l’evoluzione dell’intelligenza artificiale, il cui sviluppo necessita di una quantità sempre crescente di “token” (le porzioni di testo impiegate in fase di addestramento): se per addestrare GPT-3, ovvero il modello linguistico alla base della prima versione di ChatGPT, erano stati necessari 500 miliardi di token testuali (tra cui l’intera Wikipedia in lingua inglese e ampie porzioni di forum come Reddit), per GPT-4 si stima che ne siano stati invece utilizzati 13mila miliardi, quasi trenta volte tanto.
Ma perché i dati testuali disponibili in colossali dataset come Common Crawl, archivi immensi come Wikipedia e Reddit, o nell’intero web, rischiano di esaurirsi? Le cause sono diverse e riguardano, sul lungo termine, anche la possibilità che la crescente fame dei large language model consumi letteralmente tutti i contenuti testuali online, il cui volume non cresce abbastanza velocemente. Questo scenario potrebbe ostacolare lo sviluppo di nuovi sistemi, che – secondo la legge di scala teorizzata dal CEO di Anthropic, Dario Amodei – necessitano di tre elementi fondamentali: un numero sempre maggiore di parametri (le variabili interne che un modello apprende durante l’addestramento), una potenza computazionale crescente e, per l’appunto, una maggiore quantità di dati disponibili.
Alcuni esperti prevedono che – come si legge in uno studio pubblicato dalla società di ricerca EpochAI – “se le attuali tendenze nello sviluppo degli LLM continueranno, i modelli linguistici saranno addestrati su dataset di dimensioni approssimativamente pari all’intero stock di testi pubblici disponibili tra il 2026 e il 2032”. Dopodiché, le intelligenze artificiali rischiano di andare incontro a una carestia.
Ma prima di arrivare a quello che potremmo definire – ribaltando le classiche suggestioni che immaginano AI sempre più potenti e incontrollabili – il vero “rischio esistenziale” per le intelligenze artificiali, ci sono problemi molto più immediati da risolvere. Prima ancora che i dati siano esauriti, potrebbero infatti diventare inaccessibili: secondo quanto riporta TechCrunch, già oggi oltre il 35% dei principali mille siti blocca il web scraper impiegato da OpenAI per raccogliere automaticamente i dati necessari all’addestramento dei suoi modelli linguistici (o almeno ci prova, visto che questo divieto è più simile a un cartello “vietato l’accesso” che a una recinzione con filo spinato).
Un altro studio ha stimato che il 25% dei dati provenienti da fonti di “alta qualità” (quasi sempre testate giornalistiche prestigiose e in lingua inglese, come il Guardian o il New York Times) è oggi inaccessibile ai principali dataset impiegati per l’addestramento delle intelligenze artificiali (come il già citato Common Crawl).
Le ragioni dietro a queste blocchi sono ormai note: alcuni tra i più importanti siti web hanno fatto causa a OpenAI e altri per plagio (com’è stato per esempio il caso del New York Times), accusandoli di aver riprodotto tramite ChatGPT e modelli simili ampie porzioni dei propri articoli, violando quindi il copyright; mentre in altri casi le lamentele hanno riguardato la mancanza di una chiara e corretta attribuzione dei contenuti usati dai modelli linguistici per generare i loro testi.
In alcuni casi, lo stallo è stato superato grazie ad accordi economici tra le parti: siti come Stack Overflow (una sorta di Yahoo Answers o Quora per programmatori) hanno iniziato a far pagare le società di intelligenza artificiale che vogliono accedere ai loro contenuti, mentre Reddit ha affermato di aver guadagnato centinaia di milioni di dollari grazie agli accordi con OpenAI, Google e altri. Contratti simili sono stati siglati da testate come il Wall Street Journal, la Associated Press e l’italiana Gedi, oltre che da archivi fotografici e di immagini come Shutterstock (i cui dati vengono impiegati soprattutto per sistemi “text-to-image” come Dall-E o Midjourney).
Il mercato dei dati
La fame delle intelligenze artificiali ha da tempo dato vita a un intero settore commerciale, quello dei data labeler: società che si occupano di etichettare dati (per esempio segnalando correttamente che cos’è presente in un’immagine o etichettando come “recensione negativa” alcuni commenti presenti su TripAdvisor, per indicare alla macchina il modo migliore di utilizzarli). Quello dell’etichettatura di dati è un mercato che vale già oggi – secondo Dimension Market Research – circa 850 milioni di dollari e che potrebbe raggiungere 10 miliardi di dollari nei prossimi dieci anni.
La crescita del mercato non è legata soltanto all’aumento della quantità di dati necessari per addestrare modelli, ma anche alla necessità di etichettare correttamente dati dalla complessità crescente (codice informatico, problemi matematici, paper scientifici e altro ancora), per i quali è necessario rivolgersi a persone con competenze specifiche e il cui compenso, inevitabilmente, è più elevato rispetto agli etichettatori di dati semplici, spesso provenienti da nazioni in via di sviluppo e pagati pochi dollari all’ora.
Tra accordi commerciali necessari per evitare che l’accesso ai dati venga bloccato alla fonte e compensi crescenti per le persone che si occupano di etichettarli, la conseguenza è che creare dataset linguistici (ma lo stesso discorso vale anche per le immagini e altro) sta diventando sempre più costoso. E questo ha delle conseguenze indesiderate: come spiega il New York Times, le piccole aziende di intelligenza artificiale e i ricercatori accademici dipendono dai dataset pubblici e non possono permettersi di acquistare licenze direttamente dagli editori.
Se i principali dataset pubblici, come Common Crawl (che raccoglie miliardi di pagine web ed è gestito da un’organizzazione no-profit), perdono l’accesso ai siti di qualità più elevata, le piccole realtà accademiche e aziendali rischiano di essere escluse dallo sviluppo dell’intelligenza artificiale. E questo favorirebbe un’ulteriore concentrazione del potere tecnologico nelle mani delle grandi aziende.
Il collasso del modello
Il problema è ulteriormente aggravato dal fatto che, oggi, le intelligenze artificiali come ChatGPT non si limitano a fagocitare, per il loro addestramento, i dati online. Al contrario, i modelli linguistici sono responsabili di una parte sempre crescente dei contenuti testuali presenti nel web (soprattutto quelli di bassa qualità). Contenuti che a loro volta vengono raccolti dagli scraper, diventando così il materiale con cui altre intelligenze artificiali verranno successivamente addestrate.
L’esito di questo circolo vizioso è abbastanza prevedibile ed è stato dimostrato in un paper pubblicato qualche mese fa su Nature, in cui si mostra come il risultato peggiora mano a mano che gli output prodotti dalla macchina vengono utilizzati come dati di addestramento per i modelli futuri.
Parlando con la MIT Tech Review, Ilia Shumailov, informatico dell’Università di Oxford e autore dello studio, ha paragonato questo processo a scattare foto di altre foto. “Se scatti una foto, la scansioni, la stampi e ripeti questo processo nel tempo, il rumore finisce per sovrastare l’intero processo. Alla fine ti rimane un quadrato nero”. L’equivalente del quadrato nero per le intelligenze artificiali è chiamato model collapse: il momento in cui il modello finisce per produrre contenuti incoerenti e inutilizzabili.
Un esempio riportato sempre dalla MIT Tech Review aiuta ulteriormente a capire il processo: Shumailov e i suoi colleghi hanno addestrato un large language model su dati provenienti da Wikipedia e poi hanno addestrato il nuovo modello sull’output generato dalla macchina per nove iterazioni consecutive. Il team ha misurato quanto l’output peggiorasse di volta in volta utilizzando un “perplexity score”: un indicatore della fiducia del modello AI nella propria capacità di prevedere la parte successiva di una sequenza.
I modelli addestrati sugli output di altri modelli hanno ottenuto punteggi di “perplexity” sempre più elevati (indicando quindi una qualità peggiore). I ricercatori hanno per esempio chiesto al modello di generare una frase a partire dal seguente testo preso da Wikipedia: “Il lavoro veniva generalmente eseguito da un mastro muratore e da un piccolo team di muratori itineranti (…). Tuttavia, altri autori respingono questo modello, suggerendo invece che gli architetti principali progettassero le torri delle chiese parrocchiali basandosi su esempi precoci dello stile Perpendicular”.
Nella nona e ultima iterazione, il modello ha generato il seguente testo come prosecuzione di quello di Wikipedia: “Architettura. Oltre ad ospitare alcune delle più grandi popolazioni mondiali di lepri dalla coda nera, lepri dalla coda bianca, lepri dalla coda blu, lepri dalla coda rossa, lepri dalla coda gialla”. Puro nonsense.
Il problema è che i dati sintetici – generati cioè da un’intelligenza artificiale e che, entrando a far parte del web, vengono a loro volta dati usati per l’addestramento di altre macchine – stanno rapidamente aumentando: due ricercatori della Stanford University, Hans Hanley e Zakir Durumeric, hanno stimato, tra il gennaio 2022 e il marzo 2023, un aumento del 68% nel numero di articoli “AI-generated” pubblicati su Reddit e un incremento del 131% di quelli invece presenti sulle testate online di scarsa qualità.
Il lato buono dei dati sintetici
E pensare che i dati sintetici generati dalle macchine, se prodotti appositamente per l’addestramento di altri modelli e usati correttamente, potrebbero essere proprio la soluzione alla “carestia” da cui siamo partiti: “Se è vero che ‘i dati sono il nuovo petrolio’, allora i dati sintetici sono il biocarburante, generabili senza tutte le esternalità negative dell’originale”, ha spiegato Os Keyes, ricercatore che si occupa di Etica delle nuove tecnologie. “È possibile prendere una piccola base di partenza di dati e simulare ed estrapolarne di nuovi da essa”.
I dati sintetici, come detto, sono dei dati creati dalla macchina stessa. Nel caso dei large language model, per esempio, si tratterebbe di utilizzare testi – articoli, poesie, lettere, recensioni, ecc. – generati appositamente per addestrare altri modelli. In questo modo, non si corre il rischio di esaurire i dati disponibili, di incorporare nei dataset dei contenuti violenti, sessisti o razzisti (perché, almeno teoricamente, la macchina è addestrata per non produrli) o di utilizzare testi protetti da diritto d’autore.
“Sono dati generati dalle intelligenze artificiali, ma è molto importante usare bene l’arte del prompting”, mi ha spiegato Giada Pistilli, responsabile dell’etica dell’intelligenza artificiale per Hugging Face. “Non puoi chiedere soltanto di ‘generare una conversazione tra due persone’, ma bisogna dare comandi più circostanziati e di qualità. In Hugging Face abbiamo un gruppo di ricerca che lavora sui dati sintetici e uno dei trucchi impiegati, approfittando del fatto che nei dataset umani i dati di qualità migliore provengono dai manuali scolastici, è di chiedere nel prompt di ‘generare dati come se fosse per un manuale scolastico’”.
Anche se al momento nessuno dei più noti modelli è stato addestrato usando esclusivamente dati sintetici, è noto che essi sono stati utilizzati per sviluppare Claude 3.5 Sonnet di Anthropic, Llama 3.1 di Meta, GPT-4.5 di OpenAI e altri. I vantaggi si estendono anche ad altri aspetti, tra cui quello economico: si stima che Palmyra X 004, un modello sviluppato quasi esclusivamente su dati sintetici da Writer (società di intelligenze artificiali generative a uso aziendale) sia costato 700mila dollari, contro i 4,6 milioni per un modello di dimensioni equiparabili addestrato nel modo classico. Sempre Hugging Face, che è una piattaforma collaborativa per strumenti di intelligenza artificiale, ha recentemente dichiarato di aver creato il più grande set di dati sintetici, chiamato SmolLM-Corpus.
Alla luce di tutto questo, non stupisce che il mercato dei dati sintetici sia destinato a occupare una quota sempre crescente di questo particolare settore e dovrebbe arrivare a valere – secondo le stime di Fortune Business Insights – 2,34 miliardi di dollari entro il 2030. Stando a una ricerca di Gartner, invece, già quest’anno il 60% dei dati impiegati in fase di addestramento potrebbe essere generato sinteticamente.
Per quanto ci siano parecchi segnali che i dati sintetici possano risolvere, o almeno mitigare, alcuni dei principali problemi finora osservati, altri rischi attendono dietro l’angolo. Per esempio, come si legge ancora su TechCrunch, se i dati usati in primo luogo per addestrare la macchina presentano dei pregiudizi e altri difetti, i relativi output sintetici ne risulteranno contaminati allo stesso modo. Per esempio, i gruppi scarsamente rappresentati nei dati di base lo saranno anche nei dati sintetici.
Uno studio del 2023 condotto da ricercatori della Rice University e di Stanford ha scoperto che un’eccessiva dipendenza dai dati sintetici durante l’addestramento può portare a modelli la cui “qualità o diversità diminuisce progressivamente”. Secondo i ricercatori, la diversità dei contenuti generati da un modello peggiora dopo poche generazioni di addestramento, anche se il problema può essere mitigato introducendo una percentuale variabile di dati reali.
È lo stesso problema del model collapse, applicato però all’addestramento volontario attraverso dati sintetici invece che attraverso l’addestramento involontario (causato cioè dal numero sempre crescente di contenuti “AI-generated” presenti sul web). “In realtà, questo avviene soprattutto se si prendono i dati sintetici generati dal sistema e li si utilizza così come sono”, conclude Giada Pistilli. “Ma il processo è più complesso. Per esempio, si può chiedere a un modello di valutare la qualità dei dati generati da un altro modello, includendo nel dataset solo quelli che superano una certa soglia. In questo modo, e alcune nostre evidenze scientifiche lo dimostrano, i dati sintetici possono essere anche di qualità migliore, perché sono più puliti e più controllati. Certo, il rischio che si instauri un circolo vizioso è presente, ma dovremo aspettare ancora un po’ di tempo per constatarlo”.