ChatGPT: ecco i libri che ha studiato la I.A.

I ricercatori dell'Università della California hanno scoperto i libri che ChatGPT ha studiato

il signore degli anelli
Condividi l'articolo

Lo sviluppo di ChatGPT e delle intelligenze artificiali in genere è uno degli argomenti più caldi al mondo e probabilmente li sarà ancora per molto tempo. Per questo motivo un gruppo di ricercatori dell’Università della California, Berkeley, hanno scavato nelle profondità segrete di ChatGPT di OpenAI per cercare di scoprire quali sono stati i testi utilizzati dagli sviluppatori per amplificare le capacità di parola del software.

Gli accademici Kent Chang, Mackenzie Cramer, Sandeep Soni e David Bamman hanno descritto il loro lavoro in un articolo intitolato “Speak, Memory: An Archaeology of Books Known to ChatGPT/GPT-4″.

Abbiamo scoperto che i modelli OpenAI hanno memorizzato un’ampia raccolta di materiali protetti da copyright e che il grado di memorizzazione è legato alla frequenza con cui i passaggi di quei libri appaiono sul web – spiegano i ricercatori nel loro articolo.

Si è scoperto che GPT-4 aveva in memoria titoli come i Harry Potter, 1984 di Orwell, la trilogia de Il Signore degli Anelli, i libri di Hunger Games, Guida Galattica per AutostoppistiFahrenheit 451Il Trono di Spade e Dune, tra gli altri.

Gli autori hanno notato che i libri di fantascienza e fantasy dominano l’elenco, cosa che attribuiscono alla popolarità di quei titoli sul web. Sottolineano inoltre che memorizzare titoli specifici ha effetti importanti sul funzionamento di ChatGPT. Ad esempio, essere più accurato in risposta a richieste come “In che anno è stato pubblicato questo passaggio?” se ha memorizzato il libro.

Un’altra conseguenza della familiarità del modello con la fantascienza e il fantasy è che ChatGPT mostra una minore conoscenza di opere di altri generi. Come osserva lo studio, il software sa “poco delle opere dei testi anglofoni globali, delle opere del Black Book Interactive Project e dei vincitori del premio Black Caucus American Library Association”.

I ricercatori non affermano che ChatGPT o i modelli su cui è costruito contengano il testo completo dei libri citati: questo tipo di software infatti non memorizza il testo alla lettera. Hanno condotto un test chiamato “name cloze” progettato per prevedere un singolo nome in un passaggio di 40-60 token (un token equivale a circa quattro caratteri di testo) che non ha altre entità nominate. L’idea è che il superamento del test indichi che il modello ha memorizzato il testo associato.

I dati dietro ChatGPT e GPT-4 sono fondamentalmente inconoscibili al di fuori di OpenAI – spiegano gli autori nel loro documento. In nessun momento accediamo, o tentiamo di accedere, ai veri dati di addestramento dietro questi modelli, o a qualsiasi componente sottostante dei sistemi. Il nostro lavoro esegue l’inferenza probabilistica per misurare la familiarità di questi modelli con una serie di libri, ma la questione se esistano veramente all’interno dei dati di addestramento di questi modelli non è responsabile.

Che ne pensate?

Seguiteci su LaScimmiaPensa