[ad_1]
Nel tentativo di rendere Internet più accessibile alle persone con disabilità, i ricercatori della Ohio State University hanno iniziato a sviluppare un agente di intelligenza artificiale in grado di completare compiti complessi su qualsiasi sito web utilizzando semplici comandi linguistici.
Nei tre decenni trascorsi da quando è stato reso di pubblico dominio, il World Wide Web è diventato un sistema incredibilmente intricato e dinamico. Tuttavia, poiché la funzione di Internet è ormai così parte integrante del benessere della società, la sua complessità rende anche notevolmente più difficile la navigazione.
Oggi sono disponibili miliardi di siti Web che aiutano ad accedere alle informazioni o a comunicare con gli altri e molte attività su Internet possono richiedere più di una dozzina di passaggi per essere completate. Ecco perché Yu Su, coautore dello studio e assistente professore di informatica e ingegneria presso l’Ohio State, ha affermato che il loro lavoro, che utilizza informazioni prese da siti live per creare agenti web – aiutanti di intelligenza artificiale online – è un passo verso rendere il mondo digitale un luogo meno confuso.
“Per alcune persone, soprattutto quelle con disabilità, non è facile navigare in Internet”, ha detto Su. “Facciamo sempre più affidamento al mondo informatico nella nostra vita quotidiana e nel nostro lavoro, ma ci sono sempre più barriere a tale accesso, il che, in una certa misura, amplia la disparità.”
Lo studio è stato presentato a dicembre alla trentasettesima conferenza sui sistemi di elaborazione delle informazioni neurali (NeurIPS), una conferenza di punta per la ricerca sull’intelligenza artificiale e sull’apprendimento automatico.
Sfruttando la potenza di modelli linguistici di grandi dimensioni, l’agente funziona in modo simile a come si comportano gli esseri umani durante la navigazione sul web, ha affermato Su. Il team dell’Ohio State ha dimostrato che il loro modello era in grado di comprendere il layout e la funzionalità di diversi siti Web utilizzando solo la sua capacità di elaborare e prevedere il linguaggio.
I ricercatori hanno avviato il processo creando Mind2Web, il primo set di dati per agenti web generalisti. Nonostante gli sforzi precedenti per creare agenti web incentrati su siti Web simulati, Mind2Web abbraccia pienamente la natura complessa e dinamica dei siti Web del mondo reale ed enfatizza la capacità di un agente di generalizzare a siti Web completamente nuovi mai visti prima. Su ha affermato che gran parte del loro successo è dovuto alla capacità del loro agente di gestire la curva di apprendimento in continua evoluzione di Internet. Il team ha raccolto oltre 2.000 attività a tempo indeterminato da 137 diversi siti Web del mondo reale, che ha poi utilizzato per formare l’agente.
Alcuni dei compiti includevano la prenotazione di voli internazionali di sola andata e di andata e ritorno, il seguito di account di celebrità su Twitter, la visione di film comici dal 1992 al 2017 in streaming su Netflix e persino la programmazione di test di conoscenza dell’auto presso il DMV. Molti dei compiti erano molto complessi: ad esempio, prenotare uno dei voli internazionali utilizzati nel modello avrebbe richiesto 14 azioni. Tale versatilità senza sforzo consente una copertura diversificata su una serie di siti Web e apre un nuovo panorama affinché i modelli futuri possano esplorare e apprendere in modo autonomo, ha affermato Su.
“È diventato possibile fare qualcosa del genere solo grazie al recente sviluppo di modelli linguistici di grandi dimensioni come ChatGPT”, ha detto Su. Da quando il chatbot è diventato pubblico nel novembre 2022, milioni di utenti lo hanno utilizzato per generare automaticamente contenuti, da poesie e barzellette a consigli di cucina e diagnosi mediche.
Tuttavia, poiché un sito web potrebbe contenere migliaia di elementi HTML grezzi, sarebbe troppo costoso fornire così tante informazioni a un unico modello linguistico di grandi dimensioni. Per colmare questa lacuna, lo studio introduce anche un framework chiamato MindAct, un agente su due fronti che utilizza modelli linguistici sia piccoli che grandi per svolgere questi compiti. Il team ha scoperto che, utilizzando questa strategia, MindAct supera significativamente altre strategie di modellazione comuni ed è in grado di comprendere vari concetti a un livello decente.
Con una maggiore messa a punto, sottolinea lo studio, il modello potrebbe probabilmente essere utilizzato in tandem con modelli linguistici di grandi dimensioni, sia open source che closed source, come Flan-T5 o GPT-4. Tuttavia, il loro lavoro evidenzia un problema etico sempre più rilevante nella creazione di un’intelligenza artificiale flessibile, ha affermato Su. Sebbene possa certamente servire come strumento utile per gli esseri umani che navigano sul web, il modello potrebbe anche essere utilizzato per migliorare sistemi come ChatGPT e trasformare l’intera Internet in uno strumento potente senza precedenti, ha affermato Su.
“Da un lato, abbiamo un grande potenziale per migliorare la nostra efficienza e permetterci di concentrarci sulla parte più creativa del nostro lavoro”, ha affermato. “Ma d’altra parte, c’è un enorme potenziale di danno.” Ad esempio, agenti autonomi in grado di tradurre i passaggi online nel mondo reale potrebbero influenzare la società intraprendendo azioni potenzialmente pericolose, come l’abuso di informazioni finanziarie o la diffusione di disinformazione.
“Dovremmo essere estremamente cauti riguardo a questi fattori e fare uno sforzo concertato per cercare di mitigarli”, ha affermato Su. Ma poiché la ricerca sull’intelligenza artificiale continua ad evolversi, osserva che è probabile che la società sperimenterà una grande crescita nell’uso commerciale e nelle prestazioni degli agenti web generalisti negli anni a venire, soprattutto perché la tecnologia ha già guadagnato così tanta popolarità agli occhi del pubblico.
“Nel corso della mia carriera, il mio obiettivo è sempre stato cercare di colmare il divario tra gli utenti umani e il mondo informatico”, ha affermato Su. “Detto questo, il vero valore di questo strumento è che farà davvero risparmiare tempo alle persone e renderà possibile l’impossibile.”
La ricerca è stata supportata dalla National Science Foundation, dall’US Army Research Lab e dall’Ohio Supercomputer Center. Altri coautori erano Xiang Deng, Yu Gu, Boyuan Zheng, Shijie Chen, Samuel Stevens, Boshi Wang e Huan Sun, tutti dell’Ohio State.
[ad_2]
Source link