[ad_1]
Dall’asciugare le fuoriuscite al servire il cibo, ai robot viene insegnato a svolgere compiti domestici sempre più complicati. Molti di questi apprendisti home-bot imparano attraverso l’imitazione; sono programmati per copiare i movimenti attraverso i quali un essere umano li guida fisicamente.
Si scopre che i robot sono eccellenti imitatori. Ma a meno che gli ingegneri non li programmano anche per adattarsi a ogni possibile urto e spinta, i robot non sanno necessariamente come gestire queste situazioni, a meno che non inizino il loro compito dall’alto.
Ora gli ingegneri del MIT mirano a dare ai robot un po’ di buon senso quando si trovano ad affrontare situazioni che li spingono fuori dal loro percorso addestrato. Hanno sviluppato un metodo che collega i dati di movimento del robot con la “conoscenza del senso comune” di modelli linguistici di grandi dimensioni, o LLM.
Il loro approccio consente a un robot di analizzare logicamente molte attività domestiche in sottoattività e di adattarsi fisicamente alle interruzioni all’interno di una sottoattività in modo che il robot possa andare avanti senza dover tornare indietro e iniziare un’attività da zero – e senza che gli ingegneri debbano farlo esplicitamente. il programma corregge ogni possibile errore lungo il percorso.
“L’apprendimento per imitazione è un approccio tradizionale che abilita i robot domestici. Ma se un robot imita ciecamente le traiettorie di movimento di un essere umano, piccoli errori possono accumularsi e alla fine far deragliare il resto dell’esecuzione”, afferma Yanwei Wang, uno studente laureato presso il Dipartimento di Ingegneria Elettrica del MIT. e informatica (EECS). “Con il nostro metodo, un robot può autocorreggere gli errori di esecuzione e migliorare il successo complessivo delle attività.”
Wang e i suoi colleghi descrivono in dettaglio il loro nuovo approccio in uno studio che presenteranno alla Conferenza internazionale sulle rappresentazioni dell’apprendimento (ICLR) a maggio. I coautori dello studio includono gli studenti laureati EECS Tsun-Hsuan Wang e Jiayuan Mao, Michael Hagenow, un postdoc presso il Dipartimento di aeronautica e astronautica del MIT (AeroAstro), e Julie Shah, professoressa di aeronautica e astronautica di HN Slater al MIT.
Compito linguistico
I ricercatori illustrano il loro nuovo approccio con un compito semplice: raccogliere le biglie da una ciotola e versarle in un’altra. Per svolgere questo compito, gli ingegneri in genere spostano un robot attraverso i movimenti di raccolta e versamento, il tutto in un’unica traiettoria fluida. Potrebbero farlo più volte, per dare al robot una serie di dimostrazioni umane da imitare.
“Ma la manifestazione umana è una traiettoria lunga e continua”, dice Wang.
Il team si è reso conto che, mentre un essere umano può dimostrare un singolo compito in una volta sola, tale compito dipende da una sequenza di sottoattività o traiettorie. Ad esempio, il robot deve prima raggiungere una ciotola prima di poterla raccogliere, e deve raccogliere le biglie prima di spostarsi nella ciotola vuota, e così via. Se un robot viene spinto o spinto a commettere un errore durante una qualsiasi di queste attività secondarie, la sua unica soluzione è fermarsi e ricominciare dall’inizio, a meno che gli ingegneri non etichettino esplicitamente ciascuna attività secondaria e programmino o raccolgano nuove dimostrazioni affinché il robot possa riprendersi dalla situazione. detto fallimento, per consentire a un robot di autocorreggersi in quel momento.
“Questo livello di pianificazione è molto noioso”, afferma Wang.
Invece, lui e i suoi colleghi hanno scoperto che parte di questo lavoro potrebbe essere svolto automaticamente dai LLM. Questi modelli di deep learning elaborano immense librerie di testo, che utilizzano per stabilire connessioni tra parole, frasi e paragrafi. Attraverso queste connessioni, un LLM può quindi generare nuove frasi in base a ciò che ha imparato sul tipo di parola che probabilmente seguirà l’ultima.
Da parte loro, i ricercatori hanno scoperto che oltre alle frasi e ai paragrafi, un LLM può essere invitato a produrre un elenco logico di sottoattività che sarebbero coinvolte in un determinato compito. Ad esempio, se viene richiesto di elencare le azioni coinvolte nel raccogliere le biglie da una ciotola all’altra, un LLM potrebbe produrre una sequenza di verbi come “raggiungere”, “raccogliere”, “trasportare” e “versare”.
“I LLM hanno un modo per dirti come eseguire ogni passaggio di un’attività, nel linguaggio naturale. La dimostrazione continua di un essere umano è l’incarnazione di tali passaggi, nello spazio fisico”, afferma Wang. “E volevamo collegare i due, in modo che un robot sapesse automaticamente in quale fase si trova in un’attività e fosse in grado di riprogrammare e recuperare da solo.”
Mappatura dei marmi
Per il loro nuovo approccio, il team ha sviluppato un algoritmo per collegare automaticamente l’etichetta del linguaggio naturale di un LLM per una particolare sottoattività con la posizione di un robot nello spazio fisico o un’immagine che codifica lo stato del robot. La mappatura delle coordinate fisiche di un robot, o di un’immagine dello stato del robot, su un’etichetta in linguaggio naturale è nota come “grounding”. Il nuovo algoritmo del team è progettato per apprendere un “classificatore” di base, il che significa che impara a identificare automaticamente in quale sottoattività semantica si trova un robot – ad esempio “raggiungere” rispetto a “scoop” – date le sue coordinate fisiche o la visualizzazione di un’immagine .
“Il classificatore di messa a terra facilita questo dialogo tra ciò che il robot sta facendo nello spazio fisico e ciò che l’LLM sa sulle sottoattività e i vincoli a cui devi prestare attenzione all’interno di ciascuna sottoattività”, spiega Wang.
Il team ha dimostrato l’approccio negli esperimenti con un braccio robotico addestrato in un compito di raccolta delle biglie. Gli sperimentatori hanno addestrato il robot guidandolo fisicamente nel compito di raggiungere prima una ciotola, raccogliere le biglie, trasportarle su una ciotola vuota e versarle dentro. Dopo alcune dimostrazioni, il team ha utilizzato un LLM preaddestrato e ha chiesto al modello per elencare i passaggi necessari per raccogliere le biglie da una ciotola all’altra. I ricercatori hanno quindi utilizzato il loro nuovo algoritmo per collegare le sottoattività definite del LLM con i dati sulla traiettoria di movimento del robot. L’algoritmo ha imparato automaticamente a mappare le coordinate fisiche del robot nelle traiettorie e la visualizzazione dell’immagine corrispondente a una determinata sottoattività.
Il team ha poi lasciato che il robot svolgesse da solo il compito di scavo, utilizzando i classificatori di messa a terra appena appresi. Mentre il robot si muoveva attraverso le fasi del compito, gli sperimentatori spingevano il robot fuori dal suo percorso e facevano cadere le biglie dal cucchiaio in vari punti. Invece di fermarsi e ricominciare dall’inizio, o continuare alla cieca senza biglie sul cucchiaio, il bot è stato in grado di autocorreggersi e di completare ogni sottoattività prima di passare a quella successiva. (Ad esempio, si assicurerebbe di raccogliere con successo le biglie prima di trasportarle nella ciotola vuota.)
“Con il nostro metodo, quando il robot commette errori, non abbiamo bisogno di chiedere agli esseri umani di programmare o di fornire ulteriori dimostrazioni su come riprendersi dai fallimenti”, afferma Wang. “È davvero entusiasmante perché ora c’è un enorme sforzo verso l’addestramento dei robot domestici con i dati raccolti sui sistemi di teleoperazione. Il nostro algoritmo può ora convertire quei dati di addestramento in un comportamento robusto dei robot in grado di svolgere compiti complessi, nonostante le perturbazioni esterne.”
[ad_2]
Source link