[ad_1]
In Star Trek: La prossima generazione, il capitano Picard e l’equipaggio della USS Enterprise sfruttano il ponte ologrammi, una stanza vuota in grado di generare ambienti 3D, per prepararsi alle missioni e per divertirsi, simulando di tutto, dalle giungle lussureggianti alla Londra di Sherlock Holmes. Profondamente coinvolgenti e completamente interattivi, gli ambienti creati dal ponte ologrammi sono infinitamente personalizzabili, utilizzando solo il linguaggio: l’equipaggio deve solo chiedere al computer di generare un ambiente e quello spazio apparirà nel ponte ologrammi.
Oggi, gli ambienti interattivi virtuali vengono utilizzati anche per addestrare i robot prima dell’implementazione nel mondo reale in un processo chiamato “Sim2Real”. Tuttavia, gli ambienti virtuali interattivi sono stati sorprendentemente scarsi. “Gli artisti creano manualmente questi ambienti”, afferma Yue Yang, uno studente di dottorato nei laboratori di Mark Yatskar e Chris Callison-Burch, rispettivamente assistente e professore associato di informatica e scienza dell’informazione (CIS). “Quegli artisti potrebbero impiegare una settimana a costruire un unico ambiente”, aggiunge Yang, sottolineando tutte le decisioni coinvolte, dalla disposizione dello spazio al posizionamento degli oggetti fino ai colori utilizzati nel rendering.
Questa scarsità di ambienti virtuali è un problema se si vuole addestrare i robot a navigare nel mondo reale con tutte le sue complessità. Le reti neurali, i sistemi che alimentano l’odierna rivoluzione dell’intelligenza artificiale, richiedono enormi quantità di dati, che in questo caso significano simulazioni del mondo fisico. “I sistemi di intelligenza artificiale generativa come ChatGPT sono addestrati su trilioni di parole e i generatori di immagini come Midjourney e DALLE sono addestrati su miliardi di immagini”, afferma Callison-Burch. “Abbiamo solo una frazione di quella quantità di ambienti 3D per la formazione della cosiddetta ‘intelligenza artificiale incarnata’. Se vogliamo utilizzare tecniche di intelligenza artificiale generativa per sviluppare robot in grado di navigare in sicurezza negli ambienti del mondo reale, allora dovremo creare milioni o miliardi di ambienti simulati”.
Ecco Holodeck, un sistema per la generazione di ambienti 3D interattivi co-creato da Callison-Burch, Yatskar, Yang e Lingjie Liu, Aravind K. Joshi Assistant Professor in CIS, insieme a collaboratori di Stanford, dell’Università di Washington e dell’Allen Institute for Intelligenza Artificiale (AI2). Chiamato per il suo Star Trek antecedente, Holodeck genera una gamma virtualmente illimitata di ambienti interni, utilizzando l’intelligenza artificiale per interpretare le richieste degli utenti. “Possiamo usare il linguaggio per controllarlo”, dice Yang. “Puoi facilmente descrivere qualunque ambiente desideri e addestrare gli agenti IA incarnati.”
Holodeck sfrutta la conoscenza incorporata nei modelli linguistici di grandi dimensioni (LLM), nei sistemi alla base di ChatGPT e di altri chatbot. “La lingua è una rappresentazione molto concisa del mondo intero”, afferma Yang. In effetti, i LLM risultano avere un grado di conoscenza sorprendentemente elevato sulla progettazione degli spazi, grazie alle grandi quantità di testo che ingeriscono durante la formazione. In sostanza, Holodeck funziona coinvolgendo un LLM in una conversazione, utilizzando una serie attentamente strutturata di query nascoste per suddividere le richieste degli utenti in parametri specifici.
Proprio come il Capitano Picard potrebbe chiedere al ponte ologrammi di Star Trek di simulare uno speakeasy, i ricercatori possono chiedere al ponte ologrammi di Penn di creare “un appartamento 1b1b di un ricercatore che ha un gatto”. Il sistema esegue questa query suddividendola in più passaggi: prima vengono creati il pavimento e le pareti, poi la porta e le finestre. Successivamente, Holodeck cerca in Objaverse, una vasta libreria di oggetti digitali prefabbricati, il tipo di arredamento che potresti aspettarti in uno spazio del genere: un tavolino da caffè, una torre per gatti e così via. Infine, Holodeck interroga un modulo di layout, che i ricercatori hanno progettato per vincolare il posizionamento degli oggetti, in modo da non ritrovarsi con una toilette che si estende orizzontalmente dal muro.
Per valutare le capacità di Holodeck, in termini di realismo e accuratezza, i ricercatori hanno generato 120 scene utilizzando sia Holodeck che ProcTHOR, uno strumento precedente creato da AI2, e hanno chiesto a diverse centinaia di studenti della Penn Engineering di indicare la loro versione preferita, non sapendo quali scene fossero state create. con quali strumenti. Per ogni criterio (selezione delle risorse, coerenza del layout e preferenza generale) gli studenti hanno costantemente valutato in modo più favorevole gli ambienti generati da Holodeck.
I ricercatori hanno anche testato la capacità di Holodeck di generare scene meno tipiche nella ricerca sulla robotica e più difficili da creare manualmente rispetto agli interni di appartamenti, come negozi, spazi pubblici e uffici. Confrontando i risultati di Holodeck con quelli di ProcTHOR, che sono stati generati utilizzando regole create dall’uomo anziché testo generato dall’intelligenza artificiale, i ricercatori hanno scoperto ancora una volta che i valutatori umani preferivano le scene create da Holodeck. Questa preferenza è stata riscontrata in un’ampia gamma di ambienti interni, dai laboratori scientifici agli studi d’arte, dagli spogliatoi alle cantine.
Infine, i ricercatori hanno utilizzato scene generate dal ponte ologrammi per “mettere a punto” un agente IA incarnato. “Il test finale del ponte ologrammi”, afferma Yatskar, “è usarlo per aiutare i robot a interagire con l’ambiente in modo più sicuro, preparandoli ad abitare luoghi in cui non sono mai stati prima”.
In diversi tipi di spazi virtuali, inclusi uffici, asili nido, palestre e sale giochi, Holodeck ha avuto un effetto pronunciato e positivo sulla capacità dell’agente di spostarsi in nuovi spazi.
Ad esempio, mentre l’agente è riuscito a trovare un pianoforte in una sala da musica solo circa il 6% delle volte quando era pre-addestrato utilizzando ProcTHOR (che prevedeva che l’agente facesse circa 400 milioni di passi virtuali), l’agente è riuscito oltre il 30% delle volte quando ottimizzato utilizzando 100 stanze musicali generate da Holodeck.
“Questo campo è rimasto bloccato per molto tempo nella ricerca sugli spazi residenziali”, afferma Yang. “Ma ci sono così tanti ambienti diversi là fuori: generare in modo efficiente molti ambienti per addestrare i robot è sempre stata una grande sfida, ma Holodeck fornisce questa funzionalità.”
[ad_2]
Source link