[ad_1]
Un team di ricercatori della Nanyang Technological University di Singapore (NTU Singapore) ha sviluppato un programma per computer che crea video realistici che riflettono le espressioni facciali e i movimenti della testa della persona che parla, richiedendo solo un clip audio e una foto del viso.
DIverse but Realistic Facial Animations, o DIRFA, è un programma basato sull’intelligenza artificiale che prende l’audio e una foto e produce un video 3D che mostra la persona che mostra animazioni facciali realistiche e coerenti sincronizzate con l’audio parlato (vedi video).
Il programma sviluppato da NTU migliora gli approcci esistenti, che lottano con le variazioni di posa e il controllo emotivo.
Per raggiungere questo obiettivo, il team ha addestrato DIRFA su oltre un milione di clip audiovisivi di oltre 6.000 persone derivati da un database open source chiamato The VoxCeleb2 Dataset per prevedere i segnali del parlato e associarli alle espressioni facciali e ai movimenti della testa.
I ricercatori hanno affermato che DIRFA potrebbe portare a nuove applicazioni in vari settori e domini, inclusa la sanità, in quanto potrebbe consentire assistenti virtuali e chatbot più sofisticati e realistici, migliorando l’esperienza degli utenti. Potrebbe anche fungere da potente strumento per individui con disabilità motorie o facciali, aiutandoli a trasmettere i propri pensieri ed emozioni attraverso avatar espressivi o rappresentazioni digitali, migliorando la loro capacità di comunicare.
L’autore corrispondente, il professore associato Lu Shijian, della School of Computer Science and Engineering (SCSE) della NTU Singapore, che ha guidato lo studio, ha dichiarato: “L’impatto del nostro studio potrebbe essere profondo e di vasta portata, poiché rivoluziona il regno dei contenuti multimediali”. comunicazione consentendo la creazione di video altamente realistici di individui che parlano, combinando tecniche come l’intelligenza artificiale e l’apprendimento automatico. Il nostro programma si basa anche su studi precedenti e rappresenta un progresso nella tecnologia, poiché i video creati con il nostro programma sono completi di movimenti delle labbra accurati, espressioni facciali vivide e pose naturali della testa, utilizzando solo le loro registrazioni audio e immagini statiche.”
Il primo autore, il dottor Wu Rongliang, un dottorando presso la SCSE della NTU, ha dichiarato: “Il discorso mostra una moltitudine di variazioni. Gli individui pronunciano le stesse parole in modo diverso in contesti diversi, comprendendo variazioni di durata, ampiezza, tono e altro ancora. Inoltre, al di là della sua dimensione linguistica contenuto, il parlato trasmette ricche informazioni sullo stato emotivo di chi parla e sui fattori di identità come sesso, età, etnia e persino tratti della personalità. Il nostro approccio rappresenta uno sforzo pionieristico nel migliorare le prestazioni dal punto di vista dell’apprendimento della rappresentazione audio nell’intelligenza artificiale e nell’apprendimento automatico. Il dottor Wu è ricercatore presso l’Institute for Infocomm Research, Agency for Science, Technology and Research (A*STAR), Singapore.
I risultati sono stati pubblicati sulla rivista scientifica Riconoscimento di modelli in agosto.
Volumi parlanti: trasformare l’audio in azione con precisione animata
I ricercatori affermano che creare espressioni facciali realistiche guidate dall’audio rappresenta una sfida complessa. Per un dato segnale audio, possono esserci numerose possibili espressioni facciali che avrebbero senso e queste possibilità possono moltiplicarsi quando si ha a che fare con una sequenza di segnali audio nel tempo.
Poiché l’audio ha in genere forti associazioni con i movimenti delle labbra ma connessioni più deboli con le espressioni facciali e le posizioni della testa, il team mirava a creare volti parlanti che mostrassero una precisa sincronizzazione delle labbra, ricche espressioni facciali e movimenti naturali della testa corrispondenti all’audio fornito.
Per risolvere questo problema, il team ha prima progettato il modello di intelligenza artificiale, DIRFA, per catturare le complesse relazioni tra segnali audio e animazioni facciali. Il team ha addestrato il proprio modello su oltre un milione di clip audio e video di oltre 6.000 persone, derivati da un database disponibile al pubblico.
Il Prof. Assoc Lu ha aggiunto: “In particolare, DIRFA ha modellato la probabilità di un’animazione facciale, come un sopracciglio alzato o un naso arricciato, in base all’audio in ingresso. Questa modellazione ha consentito al programma di trasformare l’input audio in sequenze diverse ma altamente realistiche di immagini facciali. animazioni per guidare la generazione di volti parlanti.”
Il dottor Wu ha aggiunto: “Approfonditi esperimenti dimostrano che DIRFA può generare volti parlanti con movimenti delle labbra accurati, espressioni facciali vivide e pose naturali della testa. Tuttavia, stiamo lavorando per migliorare l’interfaccia del programma, consentendo il controllo di determinati output. Ad esempio, DIRFA non non consentire agli utenti di modificare una determinata espressione, ad esempio cambiare un cipiglio in un sorriso.”
Oltre ad aggiungere ulteriori opzioni e miglioramenti all’interfaccia di DIRFA, i ricercatori della NTU metteranno a punto le sue espressioni facciali con una gamma più ampia di set di dati che includono espressioni facciali più varie e clip audio vocali.
[ad_2]
Source link