[ad_1]
Per insegnare a un agente AI un nuovo compito, come come aprire un mobile da cucina, i ricercatori spesso utilizzano l’apprendimento per rinforzo, un processo di tentativi ed errori in cui l’agente viene ricompensato per aver intrapreso azioni che lo avvicinano all’obiettivo.
In molti casi, un esperto umano deve progettare attentamente una funzione di ricompensa, che è un meccanismo di incentivazione che dà all’agente la motivazione per esplorare. L’esperto umano deve aggiornare in modo iterativo la funzione di ricompensa mentre l’agente esplora e prova azioni diverse. Ciò può essere dispendioso in termini di tempo, inefficiente e difficile da ampliare, soprattutto quando l’attività è complessa e comporta molti passaggi.
I ricercatori del MIT, dell’Università di Harvard e dell’Università di Washington hanno sviluppato un nuovo approccio di apprendimento per rinforzo che non si basa su una funzione di ricompensa progettata da esperti. Sfrutta invece il feedback crowdsourcing, raccolto da molti utenti non esperti, per guidare l’agente mentre impara a raggiungere il suo obiettivo.
Mentre alcuni altri metodi tentano di utilizzare il feedback di non esperti, questo nuovo approccio consente all’agente AI di apprendere più rapidamente, nonostante il fatto che i dati raccolti in crowdsourcing dagli utenti siano spesso pieni di errori. Questi dati rumorosi potrebbero causare il fallimento di altri metodi.
Inoltre, questo nuovo approccio consente di raccogliere feedback in modo asincrono, in modo che gli utenti non esperti di tutto il mondo possano contribuire all’insegnamento dell’agente.
“Uno degli aspetti più impegnativi e dispendiosi in termini di tempo nella progettazione di un agente robotico oggi è l’ingegneria della funzione di ricompensa. Oggi le funzioni di ricompensa sono progettate da ricercatori esperti, un paradigma che non è scalabile se vogliamo insegnare ai nostri robot molti compiti diversi. Il nostro lavoro propone un modo per ampliare l’apprendimento dei robot attraverso il crowdsourcing della progettazione della funzione di ricompensa e consentendo ai non esperti di fornire feedback utili”, afferma Pulkit Agrawal, un assistente professore presso il Dipartimento di ingegneria elettrica e informatica (EECS) del MIT che dirige l’Improbable AI Lab nel Laboratorio di informatica e intelligenza artificiale del MIT (CSAIL).
In futuro, questo metodo potrebbe aiutare un robot a imparare a eseguire rapidamente compiti specifici nella casa di un utente, senza che il proprietario debba mostrare al robot esempi fisici di ciascun compito. Il robot potrebbe esplorare da solo, con il feedback di non esperti in crowdsourcing che guida la sua esplorazione.
“Nel nostro metodo, la funzione di ricompensa guida l’agente verso ciò che dovrebbe esplorare, invece di dirgli esattamente cosa dovrebbe fare per completare l’attività. Quindi, anche se la supervisione umana è alquanto imprecisa e rumorosa, l’agente è comunque in grado di esplorare, il che lo aiuta a imparare molto meglio,” spiega l’autore principale Marcel Torne ’23, un assistente di ricerca presso l’Improbable AI Lab.
Torne è affiancato nel documento dal suo consulente del MIT, Agrawal; l’autore senior Abhishek Gupta, assistente professore presso l’Università di Washington; così come altri presso l’Università di Washington e il MIT. La ricerca sarà presentata il mese prossimo alla Conferenza sui sistemi di elaborazione delle informazioni neurali.
Feedback rumoroso
Un modo per raccogliere il feedback degli utenti per l’apprendimento per rinforzo è mostrare a un utente due foto di stati raggiunti dall’agente e quindi chiedere all’utente quale stato è più vicino a un obiettivo. Ad esempio, forse l’obiettivo di un robot è aprire un mobile da cucina. Un’immagine potrebbe mostrare che il robot ha aperto il mobiletto, mentre la seconda potrebbe mostrare che ha aperto il microonde. Un utente sceglierebbe la foto dello stato “migliore”.
Alcuni approcci precedenti tentano di utilizzare questo feedback binario di crowdsourcing per ottimizzare una funzione di ricompensa che l’agente utilizzerebbe per apprendere l’attività. Tuttavia, poiché è probabile che i non esperti commettano errori, la funzione di ricompensa può diventare molto rumorosa, quindi l’agente potrebbe rimanere bloccato e non raggiungere mai il suo obiettivo.
“Fondamentalmente, l’agente prenderebbe la funzione di ricompensa troppo sul serio. Cercherebbe di corrispondere perfettamente alla funzione di ricompensa. Quindi, invece di ottimizzare direttamente la funzione di ricompensa, la usiamo semplicemente per dire al robot quali aree dovrebbe esplorare,” Torne dice.
Lui e i suoi collaboratori hanno disaccoppiato il processo in due parti separate, ciascuna diretta dal proprio algoritmo. Chiamano il loro nuovo metodo di apprendimento per rinforzo HuGE (Human Guided Exploration).
Da un lato, un algoritmo di selezione degli obiettivi viene continuamente aggiornato con feedback umano in crowdsourcing. Il feedback non viene utilizzato come funzione di ricompensa, ma piuttosto per guidare l’esplorazione dell’agente. In un certo senso, gli utenti non esperti rilasciano briciole di pane che guidano progressivamente l’agente verso il suo obiettivo.
D’altro canto, l’agente esplora da solo, in modo auto-supervisionato e guidato dal selezionatore dell’obiettivo. Raccoglie immagini o video delle azioni che tenta, che vengono poi inviate agli esseri umani e utilizzati per aggiornare il selettore degli obiettivi.
Ciò restringe l’area da esplorare per l’agente, portandolo verso aree più promettenti più vicine al suo obiettivo. Ma se non c’è feedback, o se il feedback impiega un po’ di tempo per arrivare, l’agente continuerà ad apprendere da solo, anche se in modo più lento. Ciò consente di raccogliere feedback raramente e in modo asincrono.
“Il ciclo di esplorazione può continuare in modo autonomo, perché esplorerà e imparerà cose nuove. E poi, quando riceverai un segnale migliore, esplorerà in modi più concreti. Puoi semplicemente farli girare al loro ritmo “, aggiunge Torne.
E poiché il feedback guida semplicemente il comportamento dell’agente, alla fine imparerà a completare l’attività anche se gli utenti forniscono risposte errate.
Apprendimento più veloce
I ricercatori hanno testato questo metodo su una serie di compiti simulati e reali. Nella simulazione, hanno utilizzato HuGE per apprendere in modo efficace compiti con lunghe sequenze di azioni, come impilare blocchi in un ordine particolare o spostarsi in un grande labirinto.
Nei test nel mondo reale, hanno utilizzato HuGE per addestrare i bracci robotici a disegnare la lettera “U” e a raccogliere e posizionare oggetti. Per questi test, hanno raccolto i dati di 109 utenti non esperti in 13 paesi diversi in tre continenti.
Negli esperimenti simulati e nel mondo reale, HuGE ha aiutato gli agenti a imparare a raggiungere l’obiettivo più velocemente rispetto ad altri metodi.
I ricercatori hanno anche scoperto che i dati raccolti in crowdsourcing da non esperti hanno prodotto prestazioni migliori rispetto ai dati sintetici, che sono stati prodotti ed etichettati dai ricercatori. Per gli utenti non esperti, l’etichettatura di 30 immagini o video ha richiesto meno di due minuti.
“Ciò lo rende molto promettente in termini di possibilità di ampliare questo metodo”, aggiunge Torne.
In un articolo correlato, che i ricercatori hanno presentato alla recente Conferenza sull’apprendimento dei robot, hanno migliorato HuGE in modo che un agente AI possa imparare a eseguire il compito e quindi ripristinare autonomamente l’ambiente per continuare ad apprendere. Ad esempio, se l’agente impara ad aprire un armadietto, il metodo lo guida anche a chiuderlo.
“Ora possiamo far sì che impari in modo completamente autonomo senza bisogno di reset umani”, afferma.
I ricercatori sottolineano inoltre che, in questo e in altri approcci di apprendimento, è fondamentale garantire che gli agenti dell’intelligenza artificiale siano allineati con i valori umani.
In futuro, vogliono continuare a perfezionare HuGE in modo che l’agente possa imparare da altre forme di comunicazione, come il linguaggio naturale e le interazioni fisiche con il robot. Sono anche interessati ad applicare questo metodo per insegnare a più agenti contemporaneamente.
Questa ricerca è finanziata, in parte, dal MIT-IBM Watson AI Lab.
[ad_2]
Source link