[ad_1]
I deepfake audio hanno avuto recentemente un periodo di cattiva stampa dopo che una chiamata robotica generata dall’intelligenza artificiale che pretendeva di essere la voce di Joe Biden ha colpito i residenti del New Hampshire, esortandoli a non votare. Nel frattempo, gli spear-phisher – campagne di phishing che prendono di mira una persona o un gruppo specifico, in particolare utilizzando informazioni note per essere di interesse per il bersaglio – vanno a caccia di denaro e gli attori mirano a preservare la loro somiglianza audio.
Ciò che riceve meno attenzione, tuttavia, sono alcuni degli usi dei deepfake audio che potrebbero effettivamente portare benefici alla società. In queste domande e risposte preparate per MIT News, il postdoc Nauman Dawalatabad affronta le preoccupazioni e i potenziali vantaggi della tecnologia emergente. Una versione completa di questa intervista può essere vista nel video qui sotto.
Q: Quali considerazioni etiche giustificano l’occultamento dell’identità di chi parla nei deepfake audio, soprattutto quando questa tecnologia viene utilizzata per creare contenuti innovativi?
UN: L’indagine sul perché la ricerca sia importante per oscurare l’identità di chi parla, nonostante un ampio uso primario di modelli generativi per la creazione audio nell’intrattenimento, ad esempio, solleva considerazioni etiche. Il discorso non contiene solo informazioni su “chi sei?” (identità) o “di cosa stai parlando?” (contenuto); incapsula una miriade di informazioni sensibili tra cui età, sesso, accento, salute attuale e persino indizi sulle imminenti condizioni di salute future. Ad esempio, il nostro recente documento di ricerca sul “Rilevamento della demenza da lunghe interviste neuropsicologiche” dimostra la fattibilità di rilevare la demenza dal parlato con una precisione considerevolmente elevata. Inoltre, esistono diversi modelli in grado di rilevare sesso, accento, età e altre informazioni dal parlato con altissima precisione. Sono necessari progressi tecnologici che salvaguardino dalla divulgazione involontaria di tali dati privati. Il tentativo di rendere anonima l’identità di chi parla non è semplicemente una sfida tecnica ma un obbligo morale per preservare la privacy individuale nell’era digitale.
Q: Come possiamo affrontare efficacemente le sfide poste dai deepfake audio negli attacchi di spear-phishing, tenendo conto dei rischi associati, dello sviluppo di contromisure e del progresso delle tecniche di rilevamento?
UN: L’impiego di deepfake audio negli attacchi di spear phishing introduce molteplici rischi, tra cui la diffusione di disinformazione e notizie false, il furto di identità, le violazioni della privacy e l’alterazione dannosa dei contenuti. La recente diffusione di chiamate robotizzate ingannevoli nel Massachusetts esemplifica l’impatto dannoso di tale tecnologia. Recentemente abbiamo anche parlato con il parlato Il Globo di Boston su questa tecnologia e su quanto sia facile ed economico generare audio così falsi.
Chiunque non abbia un background tecnico significativo può facilmente generare tale audio, con i molteplici strumenti disponibili online. Tali notizie false provenienti da generatori di deepfake possono disturbare i mercati finanziari e persino i risultati elettorali. Il furto della propria voce per accedere a conti bancari a gestione vocale e l’utilizzo non autorizzato della propria identità vocale a scopo di lucro ricordano l’urgente necessità di robuste contromisure. Ulteriori rischi possono includere la violazione della privacy, in cui un utente malintenzionato può utilizzare l’audio della vittima senza la sua autorizzazione o consenso. Inoltre, gli aggressori possono anche alterare il contenuto dell’audio originale, il che può avere gravi conseguenze.
Sono emerse due direzioni principali e importanti nella progettazione di sistemi per rilevare l’audio falso: rilevamento degli artefatti e rilevamento della vitalità. Quando l’audio viene generato da un modello generativo, il modello introduce alcuni artefatti nel segnale generato. I ricercatori progettano algoritmi/modelli per rilevare questi artefatti. Tuttavia, questo approccio presenta alcune sfide dovute alla crescente sofisticazione dei generatori di deepfake audio. In futuro potremmo vedere anche modelli con artefatti molto piccoli o quasi assenti. Il rilevamento della vivacità, d’altro canto, sfrutta le qualità intrinseche del linguaggio naturale, come i modelli di respirazione, le intonazioni o i ritmi, che sono difficili da replicare accuratamente per i modelli di intelligenza artificiale. Alcune aziende come Pindrop stanno sviluppando tali soluzioni per rilevare i falsi audio.
Inoltre, strategie come la filigrana audio fungono da difese proattive, incorporando identificatori crittografati all’interno dell’audio originale per tracciarne l’origine e scoraggiare la manomissione. Nonostante altre potenziali vulnerabilità, come il rischio di attacchi di riproduzione, la ricerca e lo sviluppo in corso in questo ambito offrono soluzioni promettenti per mitigare le minacce poste dai deepfake audio.
Q: Nonostante il loro potenziale uso improprio, quali sono alcuni aspetti positivi e vantaggi della tecnologia audio deepfake? Come immagini si evolverà il futuro rapporto tra l’intelligenza artificiale e le nostre esperienze di percezione uditiva?
UN: Contrariamente all’attenzione predominante sulle nefaste applicazioni dei deepfake audio, la tecnologia nasconde un immenso potenziale di impatto positivo in vari settori. Al di là del regno della creatività, dove le tecnologie di conversione vocale consentono una flessibilità senza precedenti nell’intrattenimento e nei media, i deepfake audio rappresentano una promessa di trasformazione nei settori dell’assistenza sanitaria e dell’istruzione. Il mio attuale lavoro sull’anonimizzazione delle voci di pazienti e medici nelle interviste di assistenza sanitaria cognitiva, ad esempio, facilita la condivisione di dati medici cruciali per la ricerca a livello globale garantendo al tempo stesso la privacy. La condivisione di questi dati tra i ricercatori favorisce lo sviluppo nei settori dell’assistenza sanitaria cognitiva. L’applicazione di questa tecnologia nel ripristino della voce rappresenta una speranza per le persone con disturbi del linguaggio, ad esempio, per la SLA o il linguaggio disartrico, migliorando le capacità di comunicazione e la qualità della vita.
Sono molto ottimista riguardo all’impatto futuro dei modelli di intelligenza artificiale generativa audio. La futura interazione tra l’intelligenza artificiale e la percezione uditiva è pronta per progressi rivoluzionari, in particolare attraverso la lente della psicoacustica, lo studio di come gli esseri umani percepiscono i suoni. Le innovazioni nella realtà aumentata e virtuale, esemplificate da dispositivi come Apple Vision Pro e altri, stanno spingendo i confini delle esperienze audio verso un realismo senza precedenti. Recentemente abbiamo assistito a un aumento esponenziale del numero di modelli sofisticati che escono quasi ogni mese. Questo rapido ritmo di ricerca e sviluppo in questo campo promette non solo di perfezionare queste tecnologie, ma anche di espandere le loro applicazioni in modi che avvantaggeranno profondamente la società. Nonostante i rischi intrinseci, il potenziale dei modelli di intelligenza artificiale generativa audio di rivoluzionare l’assistenza sanitaria, l’intrattenimento, l’istruzione e altro ancora è una testimonianza della traiettoria positiva di questo campo di ricerca.
[ad_2]
Source link