[ad_1]
La versione originale Di questa storia apparso in Rivista Quanti.
Due anni fa, in un progetto chiamato Beyond the Imitation Game benchmark, o BIG-bench, 450 ricercatori hanno compilato un elenco di 204 attività progettate per testare le capacità di modelli linguistici di grandi dimensioni, che alimentano chatbot come ChatGPT. Nella maggior parte delle attività, le prestazioni sono migliorate in modo prevedibile e fluido man mano che i modelli crescevano: più grande era il modello, migliore era. Ma con altri compiti, il salto di abilità non è stato fluido. Le prestazioni sono rimaste vicine allo zero per un po’, poi le prestazioni sono aumentate. Altri studi hanno riscontrato balzi simili nelle capacità.
Gli autori lo hanno descritto come un comportamento “innovativo”; altri ricercatori lo hanno paragonato a una transizione di fase in fisica, come quando l’acqua liquida si congela in ghiaccio. In un articolo pubblicato nell’agosto 2022, i ricercatori hanno osservato che questi comportamenti non sono solo sorprendenti ma imprevedibili e che dovrebbero informare le conversazioni in evoluzione sulla sicurezza, il potenziale e il rischio dell’IA. Hanno chiamato queste abilità “emergenti”, una parola che descrive comportamenti collettivi che compaiono solo quando un sistema raggiunge un elevato livello di complessità.
Ma le cose potrebbero non essere così semplici. Un nuovo articolo di un trio di ricercatori dell’Università di Stanford postula che l’improvvisa comparsa di queste capacità è solo una conseguenza del modo in cui i ricercatori misurano le prestazioni del LLM. Le capacità, sostengono, non sono né imprevedibili né improvvise. “La transizione è molto più prevedibile di quanto la gente creda”, ha detto Sanmi Koyejo, informatico di Stanford e autore senior dello studio. “Le forti affermazioni sull’emergenza hanno tanto a che fare con il modo in cui scegliamo di misurare quanto con ciò che fanno i modelli”.
Stiamo vedendo e studiando solo ora questo comportamento a causa di quanto grandi siano diventati questi modelli. I modelli linguistici di grandi dimensioni si addestrano analizzando enormi insiemi di dati di testo (parole provenienti da fonti online tra cui libri, ricerche web e Wikipedia) e trovando collegamenti tra parole che spesso appaiono insieme. La dimensione è misurata in termini di parametri, più o meno analoghi a tutti i modi in cui le parole possono essere collegate. Maggiore è il numero di parametri, maggiore è il numero di connessioni che un LLM può trovare. GPT-2 aveva 1,5 miliardi di parametri, mentre GPT-3.5, il LLM che alimenta ChatGPT, ne utilizza 350 miliardi. GPT-4, che ha debuttato nel marzo 2023 e ora è alla base di Microsoft Copilot, ne utilizza 1,75 trilioni.
Questa rapida crescita ha portato a un sorprendente aumento di prestazioni ed efficacia, e nessuno mette in dubbio che LLM abbastanza grandi possano completare compiti che i modelli più piccoli non possono, compresi quelli per i quali non sono stati formati. Il trio di Stanford che considera l’emergenza un “miraggio” riconosce che i LLM diventano più efficaci man mano che crescono; infatti, la maggiore complessità di modelli più ampi dovrebbe consentire di migliorare problemi più difficili e diversificati. Ma sostengono che il fatto che questo miglioramento appaia graduale e prevedibile o frastagliato e netto sia il risultato della scelta della metrica – o anche di una scarsità di esempi di test – piuttosto che del funzionamento interno del modello.
[ad_2]
Source link