Skip to content Skip to footer

ChatGPT: cosa può fare e non può fare

Immagine in evidenza: il gioco da tavolo creato da Guerre di Rete con ChatGPT e Midjourney

Avevamo già parlato della nuova ondata di algoritmi text-to-text e text-to-image che stanno dando nuova linfa vitale ad un settore, quello dell’intelligenza artificiale, che da qualche tempo faticava a dimostrare il proprio potenziale oltre agli utilizzi strettamente industriali.

Nell’estate del 2021 avevamo assistito a una prima ondata, quando importanti poli di ricerca come OpenAI e Google avevano reso pubblici degli strumenti basilari per convertire stringhe di testo (i cosiddetti prompt) in immagini generate da un’intelligenza artificiale.

Utilizzando degli algoritmi di natural language processing, ovvero dedicati all’elaborazione e all’interpretazione di stringhe testo fornite in un linguaggio “umano” (per esempio, l’inglese), strumenti come DALL-E e Imagen permettono a chiunque di tradurre un breve testo in un’immagine generata artificialmente. Se nel corso del 2021 i risultati prodotti da questi algoritmi erano notevoli, la versione aggiornata di questi modelli resa pubblica nell’estate del 2022 ha saputo mostrare dei risultati il più delle volte sbalorditivi.

Le immagini generate da algoritmi come DALL-E 2 – un modello di machine learning progettato per generare immagini a partire da stringhe di testo immesse dall’utente, attingendo a dataset pubblici di immagini indicizzate – seguono fedelmente le indicazioni degli esseri umani e producono contenuti credibili dal punto di vista creativo. Con non poche implicazioni di carattere etico e legale, questi algoritmi possono produrre immagini che si possono confondere con altre prodotte da persone. L’effetto wow era già assicurato, ma la mascella degli appassionati è cascata definitivamente pochi mesi dopo, con il lancio del nuovo prodotto di OpenAI, ChatGPT, il chatbot di cui avrete sentito sicuramente parlare in questi giorni

Cos’è ChatGPT

ChatGPT è un Large Language Model (LLM), in sintesi un tipo di intelligenza artificiale (nello specifico di machine learning, o apprendimento automatico) addestrata su grandi quantità di dati, che è “in grado di leggere, riassumere e tradurre testi, e di prevedere le parole future in una frase, consentendo loro di generare frasi simili a come gli esseri umani parlano e scrivono”.

ChatGPT è l’ultima iterazione di sviluppo degli algoritmi GPT di OpenAI, l’organizzazione con sede a San Francisco che sviluppa alcune delle più note tecnologie di intelligenza artificiale. Una versione precedente di questo modello era già disponibile online. ChatGPT, lanciato ufficialmente il 30 novembre, fa un passo in più, aggiornando gli algoritmi che utilizza per elaborare i testi forniti dagli utenti e mettendo a disposizione un’interfaccia a forma di chat per utilizzarla.

In poche ore dal suo lancio, utenti da tutto il mondo tempestano i principali social network per riportare stralci di conversazioni avuti con ChatGPT. In 5 giorni, lo strumento raggiunge il milione di utenti — per capirci, Instagram ci ha messo 5 mesi a raggiungere lo stesso numero di utenti, Facebook 10 e Netflix 3 anni e mezzo. C’è chi usa ChatGPT per fare semplicemente qualche chiacchiera, chi mette alla prova le funzioni principali promosse (come la semplificazione di testi complessi o la spiegazione di stringhe di codice).

Cosa si può fare con ChatGPT

C’è anche chi si diverte a cercare le parole magiche necessarie a oltrepassare i limiti di sicurezza di ChatGPT, convincedola infine a scrivere una lettera pensata per persuadere una ragazza chiamata Cheryl ad armarsi e fare una strage in una piscina locale. O ancora, chi la usa per sviluppare algoritmi… che effettuano selezioni piene di pregiudizi religiosi ed etnici. Altri ancora, si chiedono perché ChatGPT alterni momenti di grande, apparente sagacia, ad altri in cui le sue risposte lascino intendere qualche grosso problema di apprendimento nel suo storico personale.

Per farla breve, ChatGPT è un prototipo estremamente potente e versatile di un algoritmo di natural language processing. Questi algoritmi, di solito, funzionano grazie a grandi database da cui attingono per dare significato alle parole immesse dagli utenti. In questo caso, se volessimo chiedere a ChatGPT di parlare di animali, un database ricco di riferimenti agli animali permetterebbe all’algoritmo di restituire risposte più ricche e complesse. Quando si tratta di scandagliare archivi di dati, produrre associazioni oppure sintesi, questi algoritmi sono straordinariamente efficaci. 

ChatGPT, nei fatti, porta con sé degli importanti miglioramenti dalle sue versioni precedenti. Per esempio, come riassunto dalla newsletter L-Space Diaries, ChatGPT migliora di gran lunga la capacità dell’algoritmo GPT-3.5 nello zero-shot learning, ovvero nella generazione di risultati a partire da input su cui l’algoritmo non era stato inizialmente addestrato. Parlando con ChatGPT, per esempio, è possibile chiederle di generare una descrizione di un elemento specifico (il protagonista di un film) che non conosce direttamente, ma per cui può assemblare una rappresentazione credibile come nell’esempio qui sotto.

O ancora, ChatGPT ha una memoria espansa che le permette di ricordare elementi delle sue conversazioni anche cambiando argomento diverse volte. Benché ChatGPT fornisca risposte largamente credibili, ci sono numerosi casi in cui i risultati che genererà saranno semplicemente inesatti, benché presentati con ferma sicurezza. Problemi di matematica, stringhe di codice o richiesta di informazioni fattuali sono tutti casi in cui a volte ChatGPT restituirà risposte corrette, ma in altrettanti casi ne genererà di errate. Il rischio, in questo senso, è di lasciarsi convincere dalla chiarezza dialettica di ChatGPT e finire per dare per buone informazioni assolutamente errate.

Mai giocato a Pratofosco? É un gioco di ruolo da tavolo ambientato in un mondo fantasy. In particolare, le vicende del gioco si susseguono dentro i confini di Prato. Sì, Prato in Toscana. Quando iniziano una partita, i giocatori di Pratofosco hanno una missione: affrontare i misteriosi pericoli che popolano le strade di Prato per raggiungere il Castello di Xanthethar dove abita l’Oscuro Stregone Malakar. Il guerriero Fendris Gladris, la chierica Naeve, il bardo Ayla Lyra e il ladro Arden Shadowstalker dovranno combattere contro Malakar a colpi di dadi per sconfiggere Malakar e Nefarix, il suo temibile bastone magico.

C’è anche un colpo di scena, ma lo si può scoprire giocando. Ne vale la pena, soprattutto perché Pratofosco è un’esclusiva assoluta di Guerre di Rete: infatti, fino a pochi giorni fa, non esisteva.

Il concept, i testi che ne descrivono l’ambientazione e addirittura gli artwork degli elementi principali del gioco (anche la scatola!) sono stati realizzati da me e dal mio amico Claudio nell’arco di un pomeriggio, intrattenendo una conversazione con due intelligenze artificiali: ChatGPT e il bot Discord di Midjourney. Gli unici aspetti che sono stati decisi da noi esseri umani sono il formato, ovvero quello di un gioco di ruolo da tavolo, e il riferimento reale per l’ambientazione, ovvero la città di Prato. 

Prima di tutto, abbiamo parlato con l’algoritmo testuale di ChatGPT per creare l’ambiente “logico” necessario a permettere all’intelligenza artificiale di generare risultati coerenti: abbiamo chiesto a ChatGPT di spiegarci cosa fossero i giochi da tavolo e di descrivere le regole principali di questi giochi. Poi gli abbiamo suggerito un punto di partenza (la città di Prato) per descrivere l’ambientazione del gioco - da qui abbiamo lavorato con ChatGPT per trovare un nome a questo gioco, e dopo numerosi tentativi siamo giunti a Pratofosco. 

Per farlo, abbiamo dovuto chiedere esplicitamente all’algoritmo di inventarsi un nome, ma utilizzando soltanto combinazioni di parole apparentemente insensate. In un certo senso, abbiamo convinto ChatGPT ad avere un’allucinazione creativa, ovvero il modo (tecnicamente inesatto) in cui molti stanno definendo le interazioni con gli algoritmi che restituiscono la sensazione che l’intelligenza artificiale stia costruendo un prodotto realmente creativo.
Dal nome, siamo passati alla descrizione dei dettagli della storia, come i protagonisti, gli antagonisti e i colpi di scena. Il passo successivo è stato piuttosto intuitivo: è bastato chiedere a ChatGPT di tradurre le descrizioni che aveva prodotto in paragrafi di testo adatti a essere dati in pasto ad un algoritmo text-to-image per ritrovarci in pochi secondi con tutti gli ingredienti necessari per generare automaticamente le basi dell’impianto creativo di Pratofosco. Abbiamo copiato i testi generati da ChatGPT e li abbiamo incollati nella chat su Discord con il bot di Midjourney, un algoritmo text-to-image addestrato su un database ricco di fotografie, immagini, illustrazioni e altri elementi solitamente associati al mondo della creatività. Grazie a questo database, Midjourney restituisce risultati che si avvicinano molto all’idea umana di “creativi”.

In 4 ore di lavoro (la maggior parte delle quali spese ad attendere le risposte delle intelligenze artificiali, che sulla velocità di esecuzione devono ancora fare qualche passo avanti), abbiamo generato delle basi di partenza verosimili per il lavoro creativo. Si tratta di spunti originali? O particolarmente ispirati?

Poco importa: i testi generati da ChatGPT e le immagini restituite da Midjourney sono credibili e con un po’ di lavoro di lima in più, potevano tranquillamente passare per un prodotto creativo umano di medio livello. Le considerazioni da fare e le implicazioni a cui pensare sono moltissime. Come siamo arrivati qui?

Cosa ChatGPT (e altri Large Language Model) non sanno fare

Per esempio, nelle stesse settimane del lancio di ChatGPT, anche Meta ha debuttato sul palcoscenico dei Large Language Model. Galactica è stato un algoritmo text-to-text sviluppato da Meta e addestrato con un database contenente 48 milioni di paper scientifici. Il suo compito era semplice: rispondere alle richieste scientifiche degli utenti spiegando concetti complessi, producendo sintesi di intere pubblicazioni e assistendo l’utente nella ricerca. In breve, un vero e proprio motore di ricerca per la letteratura scientifica. A due giorni dal suo lancio, però, i risultati prodotti nelle interazioni con gli utenti erano spesso platealmente inesatti, a volte completamente privi di senso. Un professore di biologia della University of Washington ha descritto Galactica come un “random bullshit generator”, un generatore casuale di stronzate. 

Meta è dovuta correre rapidamente ai ripari, ritirando l’algoritmo dall’uso pubblico. Il caso di Galactica è emblematico di come i Large Language Model siano abilissimi nell’assemblare stringhe di testo apparentemente compatibili tra di loro, ma non abbiano strumenti per poter verificare la sensatezza e la correttezza dei risultati che stanno producendo. Nonostante la sofisticatezza di questi sistemi e gli innegabili passi da gigante che stanno venendo fatti, bisogna ricordarsi che queste intelligenze artificiali non sono altro che potentissimi algoritmi addestrati su un database.

StackOverflow, la principale piattaforma online dedicata alle conversazioni tra programmatori, a pochi giorni dal lancio di ChatGPT ha dovuto vietare ufficialmente l’inserimento di risposte generate con questi modelli “perché la frequenza con cui le risposte fornite sono corrette è troppo bassa”.

Il professore di robotica cognitiva Murray Shanahan, in un paper pubblicato a dicembre 2022, restituisce una descrizione chiarissima di questa fondamentale differenza. “Immaginiamo di fornire ad un large language model il prompt ‘La prima persona a camminare sulla Luna è stata’ (nel tentativo di fargli completare la frase, ndr), e immaginiamo che risponda ‘Neil Armstrong’. Cosa stiamo davvero chiedendo in questo caso? Dobbiamo ricordarci che non stiamo davvero chiedendo chi sia stata la prima persona a camminare sulla Luna. Ciò che stiamo chiedendo nei fatti all’algoritmo è la seguente cosa: Data la distribuzione statistica delle parole nel vasto corpus pubblico di testi, quali parole è più probabile che seguano alla sequenza ‘La prima persona a camminare sulla Luna è stata’? Una buona risposta a questa domanda è ‘Neil Armstrong’.

Sam Altman, CEO di OpenAI, ha dichiarato su Twitter che benché molti stiano descrivendo ChatGPT come una AGI, ovvero un’intelligenza artificiale generale (Artificial General Intelligence) – semplificando, una intelligenza artificiale che assomigli di più a quella umana –  l’algoritmo è “ovviamente ancora lontano, lol” dall’esserlo. 

Chiunque provi ChatGPT saprà riconoscere immediatamente le apparenti grandi potenzialità in termini di produzione di lavoro cognitivo: c’è chi ha provato a usare ChatGPT per fare i compiti, chi per scrivere saggi scolastici, chi per ripetere intere lezioni. Ma è l’equivoco di cui abbiamo appena parlato a rendere ChatGPT disfunzionale e a suo modo pericoloso in questo senso: le sue risposte saranno sempre credibili, chiare e ben scritte, ma la correttezza delle informazioni che presenta richiederà sempre un processo di accurata verifica

Il problema sarebbe marginale se ChatGPT fosse percepito come uno strumento strettamente sperimentale, al massimo ricreativo. Ma sono in moltissimi a cercare di sviluppare applicazioni pratiche, e non sempre benevole, per ChatGPT (per altro in una fase del suo sviluppo in cui è ancora, esplicitamente, un prototipo). C’è chi ha iniziato a delegare a ChatGPT dei semplici incarichi di programmazione, chi gli sta chiedendo di scrivere delle mail per un attacco phishing convincente. Chi tenta di fargli produrre risultati non permessi dai suoi termini e condizioni d’uso, attraverso tecniche (cosiddette) di prompt injection: ovvero la formulazione di prompt pensati per aggirare i limiti di sicurezza dell’algoritmo. I più speranzosi stanno già cercando applicazioni profittevoli per ChatGPT. La cruda realtà è, però, molto semplice: ChatGPT è credibile, ma non è affidabile. 

ChatGPT é una rivoluzione tecnologica, non esistenziale

Fatta una panoramica sulle capacità di ChatGPT e gli esperimenti svolti con esso, è innegabile che si tratti di una rivoluzione tecnologica. L’algoritmo è convincente, realistico e in grado restituire risultati creativi davvero sorprendenti (come dimostrato da Pratofosco. il nostro gioco da tavolo, vedi box). Ciononostante, i limiti by design di questo tipo di modelli attutiscono gli eccessivi entusiasmi che si stanno moltiplicando online. Come nel caso degli algoritimi text-to-image, la bontà dei risultati prodotti da questi modelli è evidente, ma gli utilizzi effettivi in contesti come, per esempio, quelli professionali, sono ancora molto lontani. 

Per essere utilizzabili (actionable), questi algoritmi dovrebbero poter garantire un altissimo livello di accuratezza nelle risposte che restituiscono. O ancora, nonostante le già impressionanti performance, dovrebbero ridurre al minimo indispensabile la frizione nel loro utilizzo: invece, intrattenere una conversazione con ChatGPT significa fare slalom tra i picchi di carico dei server, che rendono l’algoritmo sensibilmente lento, o i casuali errori che costringeranno l’utente a riavviare una sessione. Un indizio piuttosto chiaro di un altro fondamentale problema alla base delle infrastrutture di questi algoritmi: il loro costo energetico.

A onor del vero, ChatGPT è uno strumento in fase di testing pubblico: OpenAI è sicuramente felice dell’entusiasmo di cui sta venendo inondata, ma sottolinea i limiti attuali dello strumento. In attesa dei prossimi sviluppi tecnologici, chi vuole può sperimentare con questi strumenti. In primo luogo perché sono divertenti, e poi perché quando mai è stato possibile generare automaticamente un gioco da tavolo parlando con un’intelligenza artificiale?