Skip to content Skip to footer

La generazione di opere creative con IA sta esplodendo

La redazione di Guerre di Rete in salsa steampunk secondo DALL-E 2

Immagine in evidenza: la redazione di Guerre di Rete in salsa steampunk secondo DALL-E 2

Nel corso degli ultimi mesi, i risultati ottenuti da alcuni algoritmi di intelligenza artificiale in ambito visuale hanno scollinato la cosiddetta uncanny valley – il termine coniato nel 1970 da Masahiro Nori che descrive quella finestra percettiva per cui determinati oggetti artificiali (fisici o digitali) possiedono delle caratteristiche che rendono palese la loro provenienza “non umana”.

Sto parlando di quella sensazione di strana inquietudine che si prova quando si osservano robot antropomorfi dalle fattezze il più possibile fotorealistiche, come Sophia. Oppure render in computer grafica che tentano di imitare in tutto e per tutto il comportamento umano, ma non riescono davvero a farlo, come in questa scena di Medal of Honor: Warfighter.

Questa sensazione da “c’è qualcosa che non torna” la proviamo anche quando parliamo con dei chatbot di qualità non eccelsa, che finiscono rapidamente per restituirci risposte evidentemente artificiali. Questi episodi spesso generano un’interessante forma di timore nei confronti dell’oggetto artificiale osservato, una sensazione che si avvicina a una sorta di delusione: le macchine non ce la faranno mai a essere… umane.

Ora, sembra che qualcosa stia cambiando. A inizio settembre 2022, un artista americano ha vinto un concorso con un’opera generata da un’intelligenza artificiale. Nonostante il comitato del concorso fosse a conoscenza dell’origine dell’opera, la notizia ha generato una valanga di critiche, sottolineando numerosi dilemmi etici e creativi: chi è l’artista, in questo caso? La tecnologia che ha prodotto l’opera? O l’umano che ne ha timonato i risultati? Oppure, coloro che hanno programmato l’algoritmo utilizzato dalla tecnologia e dell’umano/artista?

Algoritmi per interpretare il mondo

Negli ultimi anni, le applicazioni degli algoritmi di intelligenza artificiale basati sul machine learning (ovvero dei sistemi sviluppati per migliorare automaticamente le loro performance a partire dai dataset a loro disposizione attraverso l’utilizzo di metodi statistici) si sono moltiplicate, estendendosi – nonostante i loro enormi limiti – a campi e discipline spiccatamente umane: dalla scrittura di testi giornalistici fino all’analisi di radiografie in ambito medico o la partecipazione a giochi da tavolo che richiedono una elevata capacità di astrazione. L’inizio del 2021 è stato il momento del debutto degli algoritmi nel mondo della cultura visuale.

È il 5 gennaio 2021 quando OpenAI, il laboratorio dedicato alla ricerca sull’intelligenza artificiale fondata da Elon Musk e Sam Altman, ha reso pubblici gli ultimi risultati relativi a DALL-E, un modello di machine learning progettato per generare immagini a partire da stringhe di testo immesse dall’utente, attingendo a dataset pubblici di immagini indicizzate.

La tecnologia dietro a questa storia è impressionante e i risultati a inizio 2021 sono classificabili come “carini”: date un’occhiata a questo grazioso Pikachu in tutù sopra un monociclo, per esempio. Dopo poco più di un anno, il 13 aprile 2022, OpenAI rende pubblici i risultati di DALL-E 2, la versione aggiornata di questo algoritmo. Le immagini prodotte passano dall’essere degne di nota ad assolutamente sorprendenti, al punto da diventare la copertina del numero di luglio di Cosmopolitan.

DALL-E 2 è più potente del suo predecessore, può produrre immagini a risoluzione maggiore e i risultati che produce, quando accuratamente selezionati, sono di qualità elevatissima. Questo strumento creativo permette di generare immagini a partire da stringhe di testo anche molto dettagliate, come questo (vedi immagine sotto) “castello etereo in architettura art nouveau che galleggia tra le nuvole, circondato da velivoli steampunk, in stile arte 3d”. O ancora, queste immagini che riproducono degli scatti fotografici come se fossero stati eseguiti dalla fotografa americana Annie Leibovitz.

Automatizzare la creatività: regole di funzionamento e limiti

Il funzionamento di DALL-E 2 è descritto da OpenAI stessa in un video divulgativo, “a partire da una stringa di testo, DALL-E 2 può produrre immagini fotorealistiche […], generare integrazioni originali in immagini pre-esistenti grazie alla sua funzione di InPainting […], e generare nuove versioni di un’immagine pre-esistente.”

Click here to display content from YouTube.
Consulta la privacy policy di YouTube.

Per produrre questi risultati, DALL-E 2 sfrutta una rete neurale addestrata con un database contenente un enorme numero di immagini, ognuna delle quali è stata associata a una descrizione testuale. DALL-E 2 sfrutta poi degli algoritmi di deep learning (ovvero dei sistemi di apprendimento automatico che sfruttano una stratificazione di reti neurali per elaborare i loro risultati) per apprendere i sistemi di relazioni che legano le varie immagini.

Per esempio, come descritto nel video, DALL-E 2 non è soltanto in grado di riconoscere un “koala” e una “motocicletta”, è anche capace di riprodurre una rappresentazione realistica di un “koala che guida una motocicletta” grazie alla sua capacità di apprendere il significato visuale di un input di questo tipo. Per quanto i risultati siano impressionanti, non si tratta di magia. Come sempre, quando si parla di algoritmi, la qualità dei loro risultati è fortemente legata alla qualità del database su cui questi algoritmi vengono addestrati.

Per capirci, se nel database utilizzato da DALL-E 2 prendessimo tutte le immagini che mostrano un koala e le associassimo a delle etichette testuali con su scritto “trota”, anziché “koala”, ci sarebbe bisogno di chiedere a DALL-E 2 di generare un’immagina di una “trota che guida una motocicletta” per vedersi restituire l’immagine di un koala che guida una motocicletta. Il limite appena descritto, inoltre, è uno degli obiettivi di ricerca principali da cui gli sviluppatori di DALL-E 2 sono partiti per progettarlo.

Uno strumento in grado di produrre risultati così didascalici permette anche di esplorare a fondo e in maniera diretta l’approccio di “ragionamento” che l’algoritmo applica nell’interpretazione dei nostri input testuali. Come mostrato nel video divulgativo, DALL-E 2 ripropone un noto limite degli attuali avanzamenti nell’intelligenza artificiale, ovvero la capacità di astrazione: partendo dall’input testuale “tree bark” (tradotto in italiano, albero corteccia, o anche, albero abbaio), DALL-E 2 restituisce risultati apparentemente confusi, generando immagini di cortecce d’albero e di alberi affiancati a cani che abbaiano. Poter rilevare questo tipo di discrepanze permette agli sviluppatori di DALL-E 2 di risalire al “ragionamento” svolto dall’algoritmo e individuare le cause degli apparenti cortocircuiti.

Gli sviluppatori di DALL-E 2 sono altrettanto consapevoli dei possibili risvolti negativi di uno strumento del genere e hanno esplicitamente rimosso dal database di addestramento di DALL-E 2 “contenuti espliciti” e hanno limitato la capacità di DALL-E 2 di “generare immagini fotorealistiche di volti, sia per quanto riguarda comuni individui che nel caso di personaggi pubblici.” Inoltre, DALL-E 2 dispone di un filtro che impedisce l’utilizzo di determinate categorie semantiche all’interno delle stringhe di testo inserite dall’utente, come quelle che fanno riferimento a “contenuti violenti, per un pubblico adulto o di stampo politico.”

Sistemi di questo tipo, però, prevedono anche diversi limiti: alcuni utenti, per esempio, si sono ritrovati bannati dalla piattaforma di DALL-E 2 per aver violato ripetutamente queste norme. I loro prompt, infatti, per quanto contenessero delle parole riconducibili a categorie “a rischio”, non erano semanticamente problematici (“Una ciotola di ramen con degli ingredienti che esplodono da essa”): ciononostante, si sono ritrovati ugualmente bannati.

Dopo un iniziale periodo di testing a porte chiuse, ora DALL-E 2 è accessibile al pubblico che può iscriversi alla sua piattaforma e ottenere gratuitamente 50 crediti (ovvero 50 generazioni di immagini), i quali possono poi essere rimpinguati acquistando pacchetti direttamente da OpenAI. In questo caso, i crediti servono a “prenotare” una porzione di potenza di calcolo messa a disposizione dai server di DALL-E 2 per metterla al servizio dell’input testuale che l’utente ha inserito all’interno della piattaforma. Questo ci ricorda che anche le piattaforme digitali, pur apparendo eteree, sono situate su un server fisico il quale impiega una certa potenza di calcolo per svolgere ogni operazione che gli viene richiesta.

La corsa al text-to-image

Ma DALL-E 2, come spesso accade per questo tipo di innovazioni tecnologiche, è la punta di un iceberg in continua espansione. Imagen è il sistema text-to-image di Google. Poco prima del debutto di DALL-E 2 è stato il turno di Dream — ancora, Craiyon è l’alternativa totalmente gratuita a DALL-E 2, che permette di accedere liberamente a una versione tecnologicamente meno sofisticata di DALL-E. Midjourney è un algoritmo text-to-image sviluppato da un team indipendente di ricerca con un portfolio di qualità elevatissima. Nell’arco di pochi mesi le possibili applicazioni di questo tipo di algoritmi si sono moltiplicate, facendo emergere approcci totalmente inediti per processi creativi storicamente collaudati.

Mi riferisco alla prototipazione di videogiochi attraverso la combinazione di GPT-3, un algoritmo in grado di produrre testi complessi e verosimili a partire da una stringa immessa dall’utente, e DALL-E, che traduce gli output di GPT-3 in forma visiva. In questo esempio, l’utilizzo di numerose iterazioni di Midjourney è stato sfruttato per generare le grafiche implementate poi in un semplice videogioco shoot’em’up a scorrimento laterale. Alcuni appassionati di Pokémon hanno usato la funzione di Outpainting di DALL-E 2 per immaginare i panorami delle illustrazioni delle carte Pokémon. Altri artisti hanno prodotto decine di variazioni per immagini generate da questi algoritmi per andare a comporre poi un video musicale.

La cosa più interessante, però, è che con la diffusione degli algoritmi text-to-image, si sono moltiplicati a loro volta i progetti paralleli pensati per integrare le funzioni dei sistemi che abbiamo menzionato finora. Stanno emergendo delle fitte reti di moduli, applicazioni e piattaforme che, unite assieme, permettono di avere una prospettiva concreta sul futuro di questi campi di ricerca: da cortometraggi rudimentali realizzati interamente attraverso gli algoritmi, fino a questo lookbook animato che utilizza una combinazione di diversi moduli per generare automaticamente degli abiti su una modella in movimento.

Il design dei prompt e la nascita di un mercato

In questo panorama di ricerca e di evoluzione tecnologica, c’è un aspetto degli algoritmi text-to-image che rimane profondamente umano: la qualità dei loro risultati si basa sul linguaggio umano, sul modo in cui viene utilizzato e sulla logica che costituisce le stringhe che vengono date in pasto agli algoritmi. Una stringa (o prompt, come viene definito nell’ambito) può disporre di un lessico straordinariamente ricco, ma se non viene organizzata secondo una logica precisa (quella dell’algoritmo) rischia di non sortire l’effetto sperato. Viceversa, una stringa logicamente ineccepibile rischia di produrre risultati largamente prevedibili se non viene arricchita da un’accurata scelta di lessico.

I prompt diventano quindi una superficie di lavoro essenziale per l’evoluzione di questo campo di studi. Chris Albon, direttore del dipartimento Machine Learning di Wikimedia, riassume ironicamente questa prospettiva sul futuro così: “2022: WOW puoi scrivere un prompt e una IA lo disegnerà! 2028: Vuoi scrivere un prompt? Prima di tutto devi assumere 10-15 ingegneri promptOps per costruire le PromptFlow pipeline che invieranno poi i promptjobs alla tua PromptLake dalla PromptQueue utilizzando l’EventPrompt stream.” Il 29 luglio 2022, per esempio, è stato pubblicato questo ebook gratuito, pensato per essere una guida introduttiva al “prompt design”.

Non è un caso che poco dopo l’algoritmo, sia arrivato anche il marketplace per acquistare prompt preconfezionati: su PromptBase è possibile acquistare dozzine di stringhe pre-costruite e testate per restituire un preciso risultato, dai logotipi in stile graffito, fino a fotografie ad alta risoluzione, o miniature isometriche di intere città. All’utente resta il compito di modificare alcune variabili per personalizzare la stringa.

Su PromptBase è possibile acquistare stringhe per prezzi che vanno dai 2 ai 5 dollari. Uno dei designer di questi prompt, Justin Reckling, ha dichiarato in un’intervista a The Verge di aver progettato anche un’intelligenza artificiale pensata per assistere gli utenti nella scrittura di questi prompt. Una matrioska di algoritmi, insomma.

Cosa succede quando si automatizza la creatività?

In un contesto di questo tipo, dove degli strumenti tecnologici stanno cominciando a generare dei contenuti creativi sempre più credibili agli occhi umani, è indispensabile interrogarsi sulle conseguenze sociali legate a questi campi di ricerca. A maggior ragione, se non si sta parlando soltanto di digitalizzare degli strumenti di creatività, ma sopratutto di legarli a degli algoritmi che generano automaticamente delle immagini attingendo a dei database che consistono di opere della creatività umana stessa: fotografie, illustrazioni e dipinti.

Insieme allo stupore, si sono levate numerose critiche nei confronti degli algoritmi text-to-image: c’è chi mette in discussione la sostenibilità della “supply chain creativa” dietro a questi algoritmi, affermando che strumenti come DALL-E 2 ambiscono a rimpiazzare gli artisti umani che producono le opere d’arte, le quali a loro volta assicurano il corretto funzionamento di questi algoritmi.

C’è chi sottolinea come il funzionamento alla base degli algoritmi text-to-image sia essenzialmente “anti-artistico”, finendo per riprodurre stili e tecniche implementati originariamente da artisti umani e i cui tratti sono distinti. Chi, invece, non ha problemi con gli algoritmi, ma ne ha invece con chi vende i prompt per farli funzionare perché non considerati come un prodotto creativo vero e proprio, ma solo come un input da dare in pasto ad una macchina che dovrebbe essere svincolato da dinamiche di finanziarizzazione.

Il nocciolo del problema è profondamente filosofico, e si collega a numerosi dibattiti in corso circa la crescente pervasività degli algoritmi nella società contemporanea: un’intelligenza artificiale può essere creativa? Può produrre arte? Può avere un suo ruolo nella società a prescindere dall’intervento umano necessario ad azionarla?

Una risposta a queste domande non esiste: o meglio, ne esistono tantissime in base al punto di vista che si adotta. In questa intervista realizzata da The Verge, una scrittrice di romanzi per il mercato editoriale di Amazon spiega come algoritmi per la generazione di testo come GPT-3 siano diventati particolarmente importanti per il suo lavoro, permettendole di velocizzare il processo di scrittura delegando all’intelligenza artificiale lo sviluppo delle parti descrittive dei diversi capitolo, tutelando così il tempo di cui l’autrice ha bisogno per sviluppare gli snodi della trama.

Ci sono artisti che, ancora, vedono tecnologie come DALL-E come strumenti creativi come molti altri – come Tommaso Pandolfi, alias Furtherset, che in uno scambio su Telegram ha spiegato a Guerre di Rete che secondo lui questi algoritmi “sono strumenti. Quando si comincia a parlare della “messa in discussione dell’artista” mi viene da ridere. L’unica cosa che mi interessa di questo mezzo è di provare a spingerlo a risultati che non sembrino prodotti da DALL-E. Sono materiali che per me vanno contestualizzati anche per confondere, ma che comunque esigono una drammaturgia di un qualche tipo.”

Ricercatori come Mathieu Jacomy hanno approfondito il funzionamento di questi algoritmi per evidenziarne delle caratteristiche fondamentali che interferiscono con i processi creativi per come li percepiamo noi umani: riportando l’esempio della generazione di un’immagine di una giovane ragazza, Jacomy svela il prompt dietro all’immagine “Un ritratto della Mona Lisa di Leonardo Da Vinci” e spiega come DALL-E 2 abbia generato alcune immagini chiaramente ispirate all’originale, ed una apparentemente fuori strada. Jacomy spiega come DALL-E 2 sia programmato per restituire una serie di risultati a partire da un singolo prompt e tenda, con l’obiettivo di diversificare i risultati, a interferire con la natura originale del prompt, alterandolo leggermente. Come, non è dato saperlo, visto che si tratta di algoritmi particolarmente segreti.

Infine, ci sono dibattiti aperti circa la natura della proprietà intellettuale di queste opere: generate da una macchina, a partire da un input umano, ma attingendo a sconfinati database di opere della creatività umana, a loro volta protette da copyright.
Le sfumature di questo fenomeno sono tantissime. Molte avranno ripercussioni concrete sulla nostra vita quotidiana, altre si volatilizzeranno senza attirare l’attenzione. Sicuramente, non mi era mai capitato di concludere un articolo sul rapporto tra algoritmi e creatività umana con una rappresentazione di me, immerso nella scrittura di questo articolo, realizzata da un algoritmo.

“An illustration by Caspar David Friedrich of a young writer working on a piece about text-to-image algorithms for a magazine called "Guerre di Rete" in his cozy home-studio.”
“An illustration by Caspar David Friedrich of a young writer working on a piece about text-to-image algorithms for a magazine called "Guerre di Rete" in his cozy home-studio.”