[ad_1]
Le reti neurali hanno alimentato scoperte nel campo dell’intelligenza artificiale, compresi i grandi modelli linguistici che vengono ora utilizzati in un’ampia gamma di applicazioni, dalla finanza, alle risorse umane, all’assistenza sanitaria. Ma queste reti rimangono una scatola nera di cui ingegneri e scienziati faticano a comprendere il funzionamento interno. Ora, un team guidato da scienziati informatici e informatici dell’Università della California a San Diego ha fornito alle reti neurali l’equivalente di una radiografia per scoprire come apprendono effettivamente.
I ricercatori hanno scoperto che una formula utilizzata nell’analisi statistica fornisce una descrizione matematica semplificata di come le reti neurali, come GPT-2, un precursore di ChatGPT, apprendono modelli rilevanti nei dati, noti come caratteristiche. Questa formula spiega anche come le reti neurali utilizzano questi modelli rilevanti per fare previsioni.
“Stiamo cercando di comprendere le reti neurali partendo dai principi primi”, ha affermato Daniel Beaglehole, Ph.D. studente presso il Dipartimento di Informatica e Ingegneria dell’UC San Diego e co-primo autore dello studio. “Con la nostra formula, si può semplicemente interpretare quali caratteristiche la rete utilizza per fare previsioni.”
Il team ha presentato i risultati nel numero del 7 marzo della rivista Scienza.
Perché è importante? Gli strumenti basati sull’intelligenza artificiale sono ormai pervasivi nella vita di tutti i giorni. Le banche li usano per approvare i prestiti. Gli ospedali li utilizzano per analizzare dati medici, come raggi X e risonanza magnetica. Le aziende li usano per selezionare i candidati al lavoro. Ma al momento è difficile comprendere il meccanismo utilizzato dalle reti neurali per prendere decisioni e i pregiudizi nei dati di addestramento che potrebbero avere un impatto su questo.
“Se non si capisce come apprendono le reti neurali, è molto difficile stabilire se le reti neurali producono risposte affidabili, accurate e appropriate”, ha affermato Mikhail Belkin, autore corrispondente dell’articolo e professore presso l’Halicioglu Data Science Institute della UC San Diego. . “Ciò è particolarmente significativo data la rapida crescita recente dell’apprendimento automatico e della tecnologia della rete neurale.”
Lo studio fa parte di uno sforzo più ampio del gruppo di ricerca di Belkin per sviluppare una teoria matematica che spieghi come funzionano le reti neurali. “La tecnologia ha superato di gran lunga la teoria”, ha affermato. “Dobbiamo recuperare il ritardo.”
Il team ha anche dimostrato che la formula statistica utilizzata per comprendere come le reti neurali apprendono, nota come Average Gradient Outer Product (AGOP), potrebbe essere applicata per migliorare le prestazioni e l’efficienza in altri tipi di architetture di apprendimento automatico che non includono le reti neurali.
“Se comprendiamo i meccanismi sottostanti che guidano le reti neurali, dovremmo essere in grado di costruire modelli di apprendimento automatico più semplici, più efficienti e più interpretabili”, ha affermato Belkin. “Speriamo che questo aiuti a democratizzare l’intelligenza artificiale”.
I sistemi di apprendimento automatico immaginati da Belkin avrebbero bisogno di meno potenza di calcolo, e quindi di meno energia dalla rete, per funzionare. Questi sistemi sarebbero anche meno complessi e quindi più facili da capire.
Illustrare le nuove scoperte con un esempio
Le reti neurali (artificiali) sono strumenti computazionali per apprendere le relazioni tra le caratteristiche dei dati (ad esempio identificare oggetti o volti specifici in un’immagine). Un esempio di compito è determinare se in una nuova immagine una persona indossa gli occhiali o meno. L’apprendimento automatico affronta questo problema fornendo alla rete neurale molte immagini di esempio (di formazione) etichettate come immagini di “una persona che indossa gli occhiali” o “una persona che non indossa gli occhiali”. La rete neurale apprende la relazione tra le immagini e le relative etichette ed estrae modelli di dati, o caratteristiche, su cui deve concentrarsi per prendere una decisione. Uno dei motivi per cui i sistemi di intelligenza artificiale sono considerati una scatola nera è perché spesso è difficile descrivere matematicamente quali criteri i sistemi utilizzano effettivamente per fare le loro previsioni, compresi i potenziali pregiudizi. Il nuovo lavoro fornisce una semplice spiegazione matematica di come i sistemi apprendono queste funzionalità.
Le caratteristiche sono modelli rilevanti nei dati. Nell’esempio sopra, esiste un’ampia gamma di caratteristiche che le reti neurali apprendono e quindi utilizzano per determinare se effettivamente una persona in una fotografia indossa gli occhiali o meno. Una caratteristica a cui bisognerebbe prestare attenzione per questo compito è la parte superiore del viso. Altre caratteristiche potrebbero essere la zona degli occhi o del naso dove spesso poggiano gli occhiali. La rete presta selettivamente attenzione alle caratteristiche che apprende essere rilevanti e poi scarta le altre parti dell’immagine, come la parte inferiore del viso, i capelli e così via.
L’apprendimento delle funzionalità è la capacità di riconoscere modelli rilevanti nei dati e quindi utilizzare tali modelli per fare previsioni. Nell’esempio degli occhiali, la rete impara a prestare attenzione alla parte superiore del viso. Nel nuovo Scienza articolo, i ricercatori hanno identificato una formula statistica che descrive il modo in cui le reti neurali apprendono le funzionalità.
Architetture di reti neurali alternative: i ricercatori hanno continuato dimostrando che l’inserimento di questa formula in sistemi informatici che non si basano su reti neurali ha consentito a questi sistemi di apprendere in modo più rapido ed efficiente.
“Come faccio a ignorare ciò che non è necessario? Gli esseri umani sono bravi in questo”, ha detto Belkin. “Le macchine stanno facendo la stessa cosa. I grandi modelli linguistici, ad esempio, stanno implementando questa ‘attenzione selettiva’ e non sappiamo come lo facciano. Nel nostro Scienza articolo, presentiamo un meccanismo che spiega almeno in parte il modo in cui le reti neurali “prestano selettivamente attenzione”.
Tra i finanziatori dello studio figuravano la National Science Foundation e la Simons Foundation for the Collaboration on the Theoretical Foundations of Deep Learning. Belkin fa parte dell’Institute for Learning-enabled Optimization at Scale, o TILOS, finanziato dalla NSF e diretto dall’UC San Diego.
[ad_2]
Source link