[ad_1]
OpenAI ha presentato il suo ultimo sistema di intelligenza artificiale, un programma chiamato Sora in grado di trasformare descrizioni testuali in video fotorealistici. Il modello di generazione video sta suscitando entusiasmo per il progresso della tecnologia AI, insieme a crescenti preoccupazioni su come i video deepfake artificiali peggiorino la disinformazione durante un anno elettorale cruciale in tutto il mondo.
Il modello Sora AI attualmente può creare video della durata massima di 60 secondi utilizzando solo le istruzioni di testo o il testo combinato con un’immagine. Un video dimostrativo inizia con un messaggio di testo che descrive come “una donna elegante cammina lungo una strada di Tokyo piena di neon caldi e luminosi e di segnaletica animata della città”. Altri esempi includono un cane che si diverte nella neve, veicoli che percorrono strade e scenari più fantastici come gli squali che nuotano a mezz’aria tra i grattacieli della città.
“Come con altre tecniche di intelligenza artificiale generativa, non c’è motivo di credere che il text-to-video non continuerà a migliorare rapidamente, avvicinandoci sempre di più a un’epoca in cui sarà difficile distinguere il falso dal reale”, dice Hany Farid dell’Università della California, Berkeley. “Questa tecnologia, se combinata con la clonazione vocale basata sull’intelligenza artificiale, potrebbe aprire un fronte completamente nuovo quando si tratta di creare deepfake di persone che dicono e fanno cose che non hanno mai fatto”.
Sora si basa in parte sulle tecnologie preesistenti di OpenAI, come il generatore di immagini DALL-E e i modelli linguistici di grandi dimensioni GPT. I modelli di intelligenza artificiale testo-video sono rimasti un po’ indietro rispetto alle altre tecnologie in termini di realismo e accessibilità, ma la dimostrazione di Sora è “un ordine di grandezza più credibile e meno fumettistico” rispetto a ciò che è accaduto prima, afferma Rachel Tobac, co-fondatrice. di SocialProof Security, un’organizzazione di hacking white-hat focalizzata sull’ingegneria sociale.
Per raggiungere questo livello più elevato di realismo, Sora combina due diversi approcci all’intelligenza artificiale. Il primo è un modello di diffusione simile a quelli utilizzati nei generatori di immagini AI come DALL-E. Questi modelli imparano a convertire gradualmente i pixel di un’immagine casuale in un’immagine coerente. La seconda tecnica di intelligenza artificiale si chiama “architettura del trasformatore” e viene utilizzata per contestualizzare e mettere insieme dati sequenziali. Ad esempio, i modelli linguistici di grandi dimensioni utilizzano l’architettura del trasformatore per assemblare le parole in frasi generalmente comprensibili. In questo caso, OpenAI ha scomposto i videoclip in “patch spaziotemporali” visive che l’architettura del trasformatore di Sora poteva elaborare.
I video di Sora contengono ancora molti errori, come lo scambio delle gambe destra e sinistra di un essere umano che cammina, una sedia che fluttua casualmente a mezz’aria o un biscotto morso che magicamente non ha segni di morso. Ancora, Jim Fanricercatore senior presso NVIDIA, si è rivolto alla piattaforma di social media X per elogiare Sora come un “motore fisico basato sui dati” in grado di simulare mondi.
Il fatto che i video di Sora mostrino ancora alcuni strani problemi quando raffigurano scene complesse con molto movimento suggerisce che tali video deepfake saranno rilevabili per ora, afferma Arvind Narayanan dell’Università di Princeton. Ma ha anche avvertito che, a lungo termine, “dovremo trovare altri modi per adattarci come società”.
OpenAI si è trattenuta dal rendere Sora disponibile al pubblico mentre svolge esercizi di “squadra rossa” in cui gli esperti cercano di infrangere le garanzie del modello di intelligenza artificiale per valutarne il potenziale di uso improprio. Il gruppo selezionato di persone che attualmente testano Sora sono “esperti di dominio in aree come disinformazione, contenuti che incitano all’odio e pregiudizi”, afferma un portavoce di OpenAI.
Questo test è vitale perché i video artificiali potrebbero consentire a malintenzionati di generare filmati falsi per, ad esempio, molestare qualcuno o influenzare le elezioni politiche. La disinformazione alimentata dai deepfake generati dall’intelligenza artificiale costituisce una delle principali preoccupazioni per i leader del mondo accademico, aziendale, governativo e di altri settori, nonché per gli esperti di intelligenza artificiale.
“Sora è assolutamente in grado di creare video che potrebbero ingannare la gente comune”, afferma Tobac. “Il video non deve essere perfetto per essere credibile, poiché molte persone ancora non si rendono conto che il video può essere manipolato con la stessa facilità delle immagini.”
Le società di intelligenza artificiale dovranno collaborare con le reti di social media e i governi per gestire la portata della disinformazione che potrebbe verificarsi una volta che Sora sarà aperta al pubblico, afferma Tobac. Le difese potrebbero includere l’implementazione di identificatori univoci, o “filigrane”, per i contenuti generati dall’intelligenza artificiale.
Alla domanda se OpenAI abbia in programma di rendere Sora più ampiamente disponibile nel 2024, il portavoce di OpenAI ha descritto la società come “prendendo diversi importanti passi di sicurezza prima di rendere Sora disponibile nei prodotti OpenAI”. Ad esempio, l’azienda utilizza già processi automatizzati volti a impedire che i suoi modelli commerciali di intelligenza artificiale generino rappresentazioni di violenza estrema, contenuti sessuali, immagini che incitano all’odio e veri politici o celebrità. Con più persone che mai che parteciperanno alle elezioni quest’anno, queste misure di sicurezza saranno cruciali.
Temi:
- intelligenza artificiale/
- video
[ad_2]
Source link