[ad_1]
I modelli linguistici di grandi dimensioni, come quelli che alimentano i popolari chatbot di intelligenza artificiale come ChatGPT, sono incredibilmente complessi. Anche se questi modelli vengono utilizzati come strumenti in molte aree, come l’assistenza clienti, la generazione di codici e la traduzione linguistica, gli scienziati non comprendono ancora appieno come funzionano.
Nel tentativo di comprendere meglio cosa succede dietro le quinte, i ricercatori del MIT e altrove hanno studiato i meccanismi in atto quando questi enormi modelli di apprendimento automatico recuperano la conoscenza immagazzinata.
Hanno trovato un risultato sorprendente: i modelli linguistici di grandi dimensioni (LLM) spesso utilizzano una funzione lineare molto semplice per recuperare e decodificare i fatti memorizzati. Inoltre, il modello utilizza la stessa funzione di decodifica per tipologie di fatti simili. Le funzioni lineari, equazioni con solo due variabili e senza esponenti, catturano la relazione semplice e lineare tra due variabili.
I ricercatori hanno dimostrato che, identificando funzioni lineari per fatti diversi, possono sondare il modello per vedere cosa sa sui nuovi argomenti e dove all’interno del modello è archiviata tale conoscenza.
Utilizzando una tecnica sviluppata per stimare queste semplici funzioni, i ricercatori hanno scoperto che anche quando un modello risponde in modo errato a una richiesta, spesso ha memorizzato le informazioni corrette. In futuro, gli scienziati potrebbero utilizzare questo approccio per trovare e correggere le falsità all’interno del modello, riducendo così la tendenza del modello a fornire talvolta risposte errate o prive di senso.
“Anche se questi modelli sono funzioni davvero complicate e non lineari, addestrate su molti dati e molto difficili da comprendere, a volte ci sono meccanismi davvero semplici che lavorano al loro interno. Questo ne è un esempio”, afferma Evan Hernandez, uno studente laureato in ingegneria elettrica e informatica (EECS) e co-autore principale di un articolo che descrive in dettaglio questi risultati.
Hernandez ha scritto l’articolo con il co-autore principale Arnab Sharma, uno studente laureato in informatica presso la Northeastern University; il suo consulente, Jacob Andreas, professore associato in EECS e membro del Laboratorio di informatica e intelligenza artificiale (CSAIL); l’autore senior David Bau, assistente professore di informatica alla Northeastern; e altri al MIT, all’Università di Harvard e all’Istituto israeliano di tecnologia. La ricerca sarà presentata alla Conferenza Internazionale sulle Rappresentazioni dell’Apprendimento.
Trovare fatti
La maggior parte dei modelli linguistici di grandi dimensioni, chiamati anche modelli di trasformazione, sono reti neurali. Vagamente ispirate al cervello umano, le reti neurali contengono miliardi di nodi interconnessi, o neuroni, raggruppati in molti strati e che codificano ed elaborano i dati.
Gran parte della conoscenza immagazzinata in un trasformatore può essere rappresentata come relazioni che collegano soggetti e oggetti. Ad esempio, “Miles Davis suona la tromba” è una relazione che collega il soggetto, Miles Davis, all’oggetto, la tromba.
Man mano che un trasformatore acquisisce maggiore conoscenza, memorizza ulteriori fatti su un determinato argomento su più livelli. Se un utente chiede informazioni su quell’argomento, il modello deve decodificare il fatto più rilevante per rispondere alla domanda.
Se qualcuno suggerisce un trasformatore dicendo “Miles Davis suona il. . .” il modello dovrebbe rispondere con “tromba” e non “Illinois” (lo stato in cui è nato Miles Davis).
“Da qualche parte nel calcolo della rete, deve esserci un meccanismo che va a cercare il fatto che Miles Davis suona la tromba, quindi estrae quell’informazione e aiuta a generare la parola successiva. Volevamo capire quale fosse quel meccanismo”, afferma Hernandez.
I ricercatori hanno avviato una serie di esperimenti per sondare i LLM e hanno scoperto che, anche se sono estremamente complessi, i modelli decodificano le informazioni relazionali utilizzando una semplice funzione lineare. Ciascuna funzione è specifica per il tipo di fatto da recuperare.
Ad esempio, il trasformatore utilizzerebbe una funzione di decodifica ogni volta che desidera emettere lo strumento che una persona suona e una funzione diversa ogni volta che desidera emettere lo stato in cui è nata una persona.
I ricercatori hanno sviluppato un metodo per stimare queste semplici funzioni, e poi hanno calcolato le funzioni per 47 diverse relazioni, come “capitale di un paese” e “cantante di una band”.
Anche se potrebbe esserci un numero infinito di relazioni possibili, i ricercatori hanno scelto di studiare questo sottoinsieme specifico perché rappresentativo del tipo di fatti che possono essere scritti in questo modo.
Hanno testato ciascuna funzione modificando l’oggetto per vedere se riusciva a recuperare le informazioni corrette sull’oggetto. Ad esempio, la funzione per “capitale di un paese” dovrebbe recuperare Oslo se il soggetto è la Norvegia e Londra se il soggetto è l’Inghilterra.
Le funzioni hanno recuperato le informazioni corrette più del 60% delle volte, dimostrando che alcune informazioni in un trasformatore sono codificate e recuperate in questo modo.
“Ma non tutto è codificato linearmente. Per alcuni fatti, anche se il modello li conosce e prevede un testo coerente con questi fatti, non è possibile trovarne funzioni lineari. Ciò suggerisce che il modello sta facendo qualcosa di più complicato per archiviare tali informazioni”, afferma.
Visualizzare la conoscenza di un modello
Hanno anche utilizzato le funzioni per determinare ciò che un modello ritiene vero riguardo a diversi argomenti.
In un esperimento, hanno iniziato con il messaggio “Bill Bradley era un” e hanno utilizzato le funzioni di decodifica per “fa sport” e “frequenta l’università” per vedere se il modello sa che il senatore Bradley era un giocatore di basket che frequentava Princeton.
“Possiamo dimostrare che, anche se il modello può scegliere di concentrarsi su informazioni diverse quando produce testo, codifica tutte queste informazioni”, afferma Hernandez.
Hanno utilizzato questa tecnica di indagine per produrre quella che chiamano “lente degli attributi”, una griglia che visualizza dove sono archiviate informazioni specifiche su una particolare relazione all’interno dei numerosi strati del trasformatore.
Le lenti degli attributi possono essere generate automaticamente, fornendo un metodo ottimizzato per aiutare i ricercatori a comprendere meglio un modello. Questo strumento di visualizzazione potrebbe consentire a scienziati e ingegneri di correggere le conoscenze archiviate e aiutare a impedire che un chatbot AI fornisca informazioni false.
In futuro, Hernandez e i suoi collaboratori vogliono capire meglio cosa succede nei casi in cui i fatti non vengono archiviati in modo lineare. Vorrebbero anche eseguire esperimenti con modelli più grandi, nonché studiare la precisione delle funzioni di decodifica lineare.
“Si tratta di un lavoro entusiasmante che rivela un pezzo mancante nella nostra comprensione di come i modelli linguistici di grandi dimensioni richiamino la conoscenza fattuale durante l’inferenza. Il lavoro precedente ha mostrato che gli LLM costruiscono rappresentazioni ricche di informazioni di determinati argomenti, da cui vengono estratti attributi specifici durante l’inferenza. Questo lavoro mostra che il complesso calcolo non lineare degli LLM per l’estrazione degli attributi può essere ben approssimato con una semplice funzione lineare”, afferma Mor Geva Pipek, assistente professore presso la Scuola di Informatica dell’Università di Tel Aviv, che non è stato coinvolto in questo progetto. lavoro.
Questa ricerca è stata sostenuta, in parte, da Open Philanthropy, dalla Israeli Science Foundation e da una Azrieli Foundation Early Career Faculty Fellowship.
[ad_2]
Source link