L’apprendimento automatico è molto simile all’erosione.
I dati vengono scagliati contro un modello matematico come granelli di sabbia che svolazzano su un paesaggio roccioso. Alcuni di quei grani navigano semplicemente con un impatto minimo o nullo. Ma alcuni di loro lasciano il segno: testare, indurire e infine rimodellare il paesaggio secondo schemi e fluttuazioni intrinseci che emergono nel tempo.
Efficace? Sì. Efficiente? Non così tanto.
Rick Blum, il professor Robert W. Wieseman di ingegneria elettrica e informatica alla Lehigh University, cerca di portare efficienza alle tecniche di apprendimento distribuito che emergono come cruciali per l’intelligenza artificiale (AI) e l’apprendimento automatico (ML) moderni. In sostanza, il suo obiettivo è scagliare molti meno granelli di dati senza degradare l’impatto complessivo.
Nel documento “Apprendimento distribuito con differenze di gradiente sparse”, pubblicato in un numero speciale incentrato sul ML del IEEE Journal of Selected Topics in Signal Processing, Blum e collaboratori propongono l’uso del “Metodo della discesa graduale con sparsificazione e correzione degli errori” o GD-SEC, per migliorare l’efficienza delle comunicazioni dell’apprendimento automatico condotto in un’architettura wireless “worker-server”. Il numero è stato pubblicato il 17 maggio 2022.
“I problemi nell’ottimizzazione distribuita compaiono in vari scenari che in genere si basano sulle comunicazioni wireless”, afferma. “Latenza, scalabilità e privacy sono sfide fondamentali”.
“Sono stati sviluppati vari algoritmi di ottimizzazione distribuita per risolvere questo problema”, continua, “e uno dei metodi principali consiste nell’utilizzare la classica GD in un’architettura worker-server. In questo ambiente, il server centrale aggiorna i parametri del modello dopo aver aggregato i dati ricevuti da tutti i lavoratori, quindi trasmette i parametri aggiornati ai lavoratori, ma la prestazione complessiva è limitata dal fatto che ogni lavoratore deve trasmettere tutto dei suoi dati tutto del tempo. Quando si addestra una rete neurale profonda, questo può essere dell’ordine di 200 MB da ciascun dispositivo di lavoro a ogni iterazione. Questa fase di comunicazione può facilmente diventare un collo di bottiglia significativo sulle prestazioni complessive, in particolare nei sistemi di apprendimento federato e di intelligenza artificiale”.
Attraverso l’uso di GD-SEC, spiega Blum, i requisiti di comunicazione sono notevolmente ridotti. La tecnica utilizza un approccio di compressione dei dati in cui ogni lavoratore imposta i componenti del gradiente di piccola magnitudine su zero, l’equivalente di elaborazione del segnale di non sudare le piccole cose. Il lavoratore trasmette quindi al server solo i restanti componenti diversi da zero. In altre parole, i dati significativi e utilizzabili sono gli unici pacchetti lanciati nel modello.
“I metodi attuali creano una situazione in cui ogni lavoratore ha un costo computazionale costoso; GD-SEC è relativamente economico in cui è necessario un solo passaggio GD per ogni round”, afferma Blum.
I collaboratori del professor Blum in questo progetto includono il suo ex studente Yicheng Chen ’19G ’21PhD, ora ingegnere software con LinkedIn; Martin Takác, professore associato presso l’Università di Intelligenza Artificiale Mohamed bin Zayed; e Brian M. Sadler, membro a vita dell’IEEE, scienziato senior per i sistemi intelligenti dell’esercito americano e membro del laboratorio di ricerca dell’esercito.
Fonte storia:
Materiali forniti da Università di Lehigh. Nota: il contenuto può essere modificato per stile e lunghezza.