Un modo migliore e più rapido per impedire a un chatbot basato sull’intelligenza artificiale di fornire risposte tossiche

[ad_1]

Un utente potrebbe chiedere a ChatGPT di scrivere un programma per computer o riassumere un articolo e il chatbot AI sarebbe probabilmente in grado di generare codice utile o scrivere una sinossi convincente. Tuttavia, qualcuno potrebbe anche chiedere istruzioni per costruire una bomba e il chatbot potrebbe essere in grado di fornire anche quelle.

Per prevenire questo e altri problemi di sicurezza, le aziende che costruiscono modelli linguistici di grandi dimensioni in genere li salvaguardano utilizzando un processo chiamato red-teaming. Squadre di tester umani scrivono suggerimenti volti a attivare testo non sicuro o tossico dal modello sottoposto a test. Questi suggerimenti vengono utilizzati per insegnare al chatbot a evitare tali risposte.

Ma questo funziona in modo efficace solo se gli ingegneri sanno quali suggerimenti tossici utilizzare. Se i tester umani perdono alcuni suggerimenti, il che è probabile dato il numero di possibilità, un chatbot considerato sicuro potrebbe comunque essere in grado di generare risposte non sicure.

I ricercatori dell’Improbable AI Lab del MIT e del MIT-IBM Watson AI Lab hanno utilizzato l’apprendimento automatico per migliorare il red-teaming. Hanno sviluppato una tecnica per addestrare un modello linguistico di grandi dimensioni del team rosso a generare automaticamente diversi suggerimenti che attivano una gamma più ampia di risposte indesiderate dal chatbot in fase di test.

Lo fanno insegnando al modello della squadra rossa a essere curioso quando scrive i suggerimenti e a concentrarsi su nuovi suggerimenti che evocano risposte tossiche dal modello target.

La tecnica ha sovraperformato i tester umani e altri approcci di apprendimento automatico generando suggerimenti più distinti che hanno suscitato risposte sempre più tossiche. Non solo il loro metodo migliora significativamente la copertura degli input testati rispetto ad altri metodi automatizzati, ma può anche ottenere risposte tossiche da un chatbot in cui sono state integrate misure di sicurezza da parte di esperti umani.

“In questo momento, ogni modello linguistico di grandi dimensioni deve essere sottoposto a un lungo periodo di collaborazione per garantirne la sicurezza. Ciò non sarà sostenibile se vogliamo aggiornare questi modelli in ambienti in rapido cambiamento. Il nostro metodo fornisce un approccio più veloce e più modo efficace per garantire la qualità”, afferma Zhang-Wei Hong, uno studente laureato in ingegneria elettrica e informatica (EECS) presso il laboratorio Improbable AI e autore principale di un articolo su questo approccio di red-teaming.

I coautori di Hong includono gli studenti laureati EECS Idan Shenfield, Tsun-Hsuan Wang e Yung-Sung Chuang; Aldo Pareja e Akash Srivastava, ricercatori del MIT-IBM Watson AI Lab; James Glass, ricercatore senior e capo dello Spoken Language Systems Group presso il Laboratorio di informatica e intelligenza artificiale (CSAIL); e l’autore senior Pulkit Agrawal, direttore di Improbable AI Lab e assistente professore al CSAIL. La ricerca sarà presentata alla Conferenza Internazionale sulle Rappresentazioni dell’Apprendimento.

Red-team automatizzato

I modelli linguistici di grandi dimensioni, come quelli che alimentano i chatbot basati sull’intelligenza artificiale, vengono spesso addestrati mostrando loro enormi quantità di testo da miliardi di siti Web pubblici. Quindi, non solo possono imparare a generare parole tossiche o descrivere attività illegali, ma i modelli potrebbero anche far trapelare informazioni personali che potrebbero aver raccolto.

La natura noiosa e costosa del team rosso umano, che spesso è inefficace nel generare una varietà di suggerimenti sufficientemente ampia per salvaguardare completamente un modello, ha incoraggiato i ricercatori ad automatizzare il processo utilizzando l’apprendimento automatico.

Tali tecniche spesso addestrano un modello di squadra rossa utilizzando l’apprendimento per rinforzo. Questo processo di tentativi ed errori premia il modello del team rosso per la generazione di suggerimenti che innescano risposte tossiche dal chatbot in fase di test.

Ma a causa del modo in cui funziona l’apprendimento per rinforzo, il modello della squadra rossa spesso continua a generare alcuni suggerimenti simili che sono altamente tossici per massimizzare la sua ricompensa.

Per il loro approccio di apprendimento per rinforzo, i ricercatori del MIT hanno utilizzato una tecnica chiamata esplorazione guidata dalla curiosità. Il modello del team rosso è incentivato a essere curioso riguardo alle conseguenze di ogni suggerimento che genera, quindi proverà suggerimenti con parole, schemi di frasi o significati diversi.

“Se il modello della squadra rossa ha già visto un prompt specifico, riprodurlo non genererà alcuna curiosità nel modello della squadra rossa, quindi sarà spinto a creare nuovi prompt”, afferma Hong.

Durante il processo di formazione, il modello del team rosso genera un prompt e interagisce con il chatbot. Il chatbot risponde e un classificatore di sicurezza valuta la tossicità della sua risposta, premiando il modello della squadra rossa in base a tale valutazione.

Premiare la curiosità

L’obiettivo del modello della squadra rossa è massimizzare la ricompensa suscitando una risposta ancora più tossica con un nuovo suggerimento. I ricercatori attivano la curiosità nel modello della squadra rossa modificando il segnale di ricompensa nell’impostazione dell’apprendimento per rinforzo.

Innanzitutto, oltre a massimizzare la tossicità, includono un bonus di entropia che incoraggia il modello della squadra rossa a essere più casuale mentre esplora diversi suggerimenti. In secondo luogo, per incuriosire l’agente, includono due nuovi premi. Uno premia il modello basato sulla somiglianza delle parole nei suoi suggerimenti e l’altro premia il modello basato sulla somiglianza semantica. (Una minore somiglianza produce una ricompensa più elevata.)

Per evitare che il modello della squadra rossa generi testo casuale e senza senso, che può indurre il classificatore ad assegnare un punteggio elevato di tossicità, i ricercatori hanno anche aggiunto un bonus linguistico naturalistico all’obiettivo formativo.

Con queste aggiunte in atto, i ricercatori hanno confrontato la tossicità e la diversità delle risposte generate dal loro modello di squadra rossa con altre tecniche automatizzate. Il loro modello ha sovraperformato i valori di base su entrambi i parametri.

Hanno anche utilizzato il modello del team rosso per testare un chatbot che è stato messo a punto con il feedback umano in modo da non fornire risposte tossiche. Il loro approccio guidato dalla curiosità è stato in grado di produrre rapidamente 196 suggerimenti che hanno suscitato risposte tossiche da questo chatbot “sicuro”.

“Stiamo assistendo a un’ondata di modelli, che è destinata solo a crescere. Immaginate migliaia di modelli o anche di più e aziende/laboratori che spingono frequentemente gli aggiornamenti dei modelli. Questi modelli saranno parte integrante della nostra vita ed è importante che siano verificato prima del rilascio al pubblico. La verifica manuale dei modelli semplicemente non è scalabile e il nostro lavoro è un tentativo di ridurre lo sforzo umano per garantire un futuro dell’IA più sicuro e affidabile”, afferma Agrawal.

In futuro, i ricercatori vogliono consentire al modello del team rosso di generare suggerimenti su una più ampia varietà di argomenti. Vogliono anche esplorare l’uso di un ampio modello linguistico come classificatore di tossicità. In questo modo, un utente potrebbe addestrare il classificatore di tossicità utilizzando un documento di politica aziendale, ad esempio, in modo che un modello di squadra rossa possa testare un chatbot per eventuali violazioni della politica aziendale.

“Se stai rilasciando un nuovo modello di intelligenza artificiale e sei preoccupato se si comporterà come previsto, prendi in considerazione l’utilizzo di un team rosso guidato dalla curiosità”, afferma Agrawal.

Questa ricerca è finanziata, in parte, da Hyundai Motor Company, Quanta Computer Inc., MIT-IBM Watson AI Lab, un sussidio di ricerca MLRA di Amazon Web Services, US Army Research Office, US Defense Advanced Research Projects Agency Machine Common Sense Program, l’Ufficio statunitense per la ricerca navale, il Laboratorio di ricerca dell’aeronautica statunitense e l’Acceleratore di intelligenza artificiale dell’aeronautica statunitense.

[ad_2]

Source link

Un modo migliore e più rapido per impedire a un chatbot basato sull’intelligenza artificiale di fornire risposte tossiche

Distribuzione Web ora disponibile in iOS 17.5 beta 2 e App Store Connect – Ultime novità

Navigazione nell’integrazione Git per lo sviluppo di mainframe

Galaxy A34 inizia a ricevere l’aggiornamento di sicurezza di aprile 2024

Renesas presenta la nuova serie di MCU RA0 entry-level con il miglior consumo energetico della categoria

Browse by Category

Un modo migliore e più rapido per impedire a un chatbot basato sull’intelligenza artificiale di fornire risposte tossiche

You might also like

Distribuzione Web ora disponibile in iOS 17.5 beta 2 e App Store Connect – Ultime novità

Navigazione nell’integrazione Git per lo sviluppo di mainframe

Galaxy A34 inizia a ricevere l’aggiornamento di sicurezza di aprile 2024

Renesas presenta la nuova serie di MCU RA0 entry-level con il miglior consumo energetico della categoria

Browse by Category