[ad_1]
ChatGPT ha fatto notizia in tutto il mondo con la sua capacità di scrivere saggi, e-mail e codice informatico in base ad alcune richieste di un utente. Ora un team guidato dal MIT segnala un sistema che potrebbe portare a programmi di apprendimento automatico diversi ordini di grandezza più potenti di quello dietro ChatGPT. Il sistema che hanno sviluppato potrebbe anche utilizzare diversi ordini di grandezza in meno di energia rispetto ai supercomputer all’avanguardia dietro gli odierni modelli di apprendimento automatico.
Nel numero del 17 luglio di Fotonica della natura, i ricercatori riportano la prima dimostrazione sperimentale del nuovo sistema, che esegue i suoi calcoli basandosi sul movimento della luce, piuttosto che sugli elettroni, utilizzando centinaia di laser su scala micron. Con il nuovo sistema, il team segnala un miglioramento di oltre 100 volte nell’efficienza energetica e un miglioramento di 25 volte nella densità di calcolo, una misura della potenza di un sistema, rispetto ai computer digitali all’avanguardia per l’apprendimento automatico. .
Verso il futuro
Nel documento, il team cita anche “sostanzialmente molti altri ordini di grandezza per miglioramenti futuri”. Di conseguenza, continuano gli autori, la tecnica “apre una strada ai processori optoelettronici su larga scala per accelerare le attività di apprendimento automatico dai data center ai dispositivi edge decentralizzati”. In altre parole, i cellulari e altri piccoli dispositivi potrebbero diventare in grado di eseguire programmi che attualmente possono essere elaborati solo nei grandi data center.
Inoltre, poiché i componenti del sistema possono essere creati utilizzando processi di fabbricazione già in uso oggi, “ci aspettiamo che possa essere adattato per uso commerciale tra pochi anni. Ad esempio, gli array laser coinvolti sono ampiamente utilizzati nell’identificazione del volto dei telefoni cellulari e nella comunicazione dei dati”, afferma Zaijun Chen, primo autore, che ha condotto il lavoro mentre era postdoc al MIT nel Laboratorio di ricerca di elettronica (RLE) ed è ora un ricercatore. professore assistente presso l’Università della California del Sud.
Dirk Englund, professore associato presso il Dipartimento di ingegneria elettrica e informatica del MIT e responsabile del lavoro, “ChatGPT è limitato nelle sue dimensioni dalla potenza dei supercomputer di oggi. Semplicemente non è economicamente fattibile addestrare modelli molto più grandi. La nostra nuova tecnologia potrebbe consentire il salto verso modelli di apprendimento automatico che altrimenti non sarebbero raggiungibili nel prossimo futuro”.
E continua: “Non sappiamo quali capacità avrà il ChatGPT di prossima generazione se sarà 100 volte più potente, ma questo è il regime di scoperta che questo tipo di tecnologia può consentire”. Englund è anche a capo del Laboratorio di fotonica quantistica del MIT ed è affiliato al RLE e al Laboratorio di ricerca sui materiali.
Un ritmo di progresso
Il lavoro attuale è l’ultimo risultato di una serie di progressi compiuti negli ultimi anni da Englund e da molti dei suoi colleghi. Ad esempio, nel 2019 un team di Englund ha riportato il lavoro teorico che ha portato all’attuale dimostrazione. Il primo autore di quell’articolo, Ryan Hamerly, ora di RLE e NTT Research Inc., è anche autore dell’attuale articolo.
Ulteriori coautori della corrente Fotonica della natura i documenti sono Alexander Sludds, Ronald Davis, Ian Christen, Liane Bernstein e Lamia Ateshian, tutti di RLE; e Tobias Heuser, Niels Heermeier, James A. Lott e Stephan Reitzensttein della Technische Universitat Berlin.
Le reti neurali profonde (DNN) come quella dietro ChatGPT si basano su enormi modelli di apprendimento automatico che simulano il modo in cui il cervello elabora le informazioni. Tuttavia, le tecnologie digitali alla base delle attuali DNN stanno raggiungendo i loro limiti proprio mentre il campo dell’apprendimento automatico è in crescita. Inoltre, richiedono enormi quantità di energia e sono in gran parte confinati nei grandi data center. Ciò sta motivando lo sviluppo di nuovi paradigmi informatici.
L’uso della luce anziché degli elettroni per eseguire i calcoli DNN ha il potenziale per superare gli attuali colli di bottiglia. I calcoli che utilizzano l’ottica, ad esempio, hanno il potenziale di utilizzare molta meno energia rispetto a quelli basati sull’elettronica. Inoltre, con l’ottica, “puoi avere larghezze di banda molto più grandi” o densità di calcolo, afferma Chen. La luce può trasferire molte più informazioni su un’area molto più piccola.
Ma le attuali reti neurali ottiche (ONN) presentano sfide significative. Ad esempio, consumano una grande quantità di energia perché non sono efficienti nel convertire in luce i dati in arrivo basati sull’energia elettrica. Inoltre, i componenti coinvolti sono ingombranti e occupano spazio significativo. E mentre gli ONN sono abbastanza bravi nei calcoli lineari come l’addizione, non sono bravi nei calcoli non lineari come la moltiplicazione e le istruzioni “se”.
Nel lavoro attuale i ricercatori introducono un’architettura compatta che, per la prima volta, risolve tutte queste sfide e altre due contemporaneamente. Tale architettura si basa su array all’avanguardia di laser a emissione di superficie verticale (VCSEL), una tecnologia relativamente nuova utilizzata in applicazioni tra cui il telerilevamento lidar e la stampa laser. I particolari VCEL riportati nel Fotonica della natura sono stati sviluppati dal gruppo Reitzenstein della Technische Universitat Berlin. “Si trattava di un progetto collaborativo che non sarebbe stato possibile senza di loro”, afferma Hamerly.
Logan Wright, un assistente professore alla Yale University che non è stato coinvolto nella ricerca attuale, commenta: “Il lavoro di Zaijun Chen et al. sta ispirando, incoraggiando me e probabilmente molti altri ricercatori in quest’area che i sistemi basati su array VCSEL modulati potrebbero essere un percorso praticabile verso reti neurali ottiche su larga scala e ad alta velocità. Naturalmente lo stato dell’arte in questo campo è ancora lontano dalle dimensioni e dai costi che sarebbero necessari per dispositivi praticamente utili, ma sono ottimista su ciò che potrà essere realizzato nei prossimi anni, soprattutto considerando il potenziale di accelerazione di questi sistemi i sistemi di intelligenza artificiale molto costosi e su larga scala come quelli utilizzati nei popolari sistemi testuali “GPT” come ChatGPT.”
Chen, Hamerly ed Englund hanno depositato un brevetto sul lavoro, che è stato sponsorizzato dall’Ufficio di ricerca dell’esercito americano, da NTT Research, dal Programma di borse di studio per laureati in scienze e ingegneria della difesa nazionale degli Stati Uniti, dalla Fondazione nazionale per la scienza degli Stati Uniti, da Scienze naturali e ingegneria. Consiglio di ricerca del Canada e Fondazione Volkswagen.
[ad_2]
Source link