[ad_1]
Nelle riunioni virtuali è facile impedire alle persone di parlare tra loro. Qualcuno ha semplicemente disattivato l’audio. Ma nella maggior parte dei casi, questa capacità non si traduce facilmente nella registrazione di riunioni di persona. In un bar affollato, non ci sono pulsanti per mettere a tacere il tavolo accanto a te.
La capacità di localizzare e controllare il suono, ad esempio isolando una persona che parla da una posizione specifica in una stanza affollata, ha messo alla prova i ricercatori, soprattutto senza segnali visivi provenienti dalle telecamere.
Un team guidato da ricercatori dell’Università di Washington ha sviluppato un altoparlante intelligente che cambia forma, che utilizza microfoni ad attivazione automatica per dividere le stanze in zone di conversazione e monitorare le posizioni dei singoli oratori. Con l’aiuto degli algoritmi di deep learning del team, il sistema consente agli utenti di disattivare l’audio di determinate aree o di separare conversazioni simultanee, anche se due persone adiacenti hanno voci simili. Come una flotta di Roomba, ciascuno di circa un pollice di diametro, i microfoni si aprono automaticamente e poi ritornano a una stazione di ricarica. Ciò consente al sistema di essere spostato tra ambienti e configurato automaticamente. In una riunione in una sala conferenze, ad esempio, un sistema di questo tipo potrebbe essere utilizzato al posto di un microfono centrale, consentendo un migliore controllo dell’audio nella stanza.
Il team ha pubblicato i suoi risultati il 21 settembre Comunicazioni sulla natura.
“Se chiudo gli occhi e ci sono 10 persone che parlano in una stanza, non ho idea di chi sta dicendo cosa e dove si trovano esattamente nella stanza. È estremamente difficile da elaborare per il cervello umano. Fino ad ora, è stato difficile anche per tecnologia”, ha detto il co-autore principale Malek Itani, uno studente di dottorato della UW presso la Paul G. Allen School of Computer Science & Engineering. “Per la prima volta, utilizzando quello che chiamiamo uno ‘sciame acustico’ robotico, siamo in grado di tracciare le posizioni di più persone che parlano in una stanza e separare i loro discorsi.”
Precedenti ricerche sugli sciami di robot hanno richiesto l’uso di telecamere posizionate sopra o sul dispositivo, proiettori o superfici speciali. Il sistema del team UW è il primo a distribuire accuratamente uno sciame di robot utilizzando solo il suono.
Il prototipo del team è composto da sette piccoli robot che si distribuiscono su tavoli di varie dimensioni. Mentre si sposta dal caricatore, ogni robot emette un suono ad alta frequenza, come un pipistrello che naviga, utilizzando questa frequenza e altri sensori per evitare ostacoli e muoversi senza cadere dal tavolo. L’implementazione automatica consente ai robot di posizionarsi con la massima precisione, consentendo un maggiore controllo del suono rispetto a quando una persona li imposta. I robot si disperdono il più lontano possibile gli uni dagli altri poiché distanze maggiori rendono più facile differenziare e localizzare le persone che parlano. Gli altoparlanti intelligenti consumer di oggi hanno più microfoni, ma raggruppati sullo stesso dispositivo sono troppo vicini per consentire le zone attive e mute di questo sistema.
“Se ho un microfono a un metro di distanza da me e un altro microfono a mezzo metro di distanza, la mia voce arriverà prima al microfono che è a un metro di distanza. Se qualcun altro è più vicino al microfono che è a mezzo metro di distanza, la sua voce arriverà lì “, ha detto il co-autore Tuochao Chen, uno studente di dottorato della UW presso la Allen School. “Abbiamo sviluppato reti neurali che utilizzano questi segnali ritardati per separare ciò che ogni persona sta dicendo e tracciare la sua posizione in uno spazio. Quindi puoi avere quattro persone che hanno due conversazioni e isolare una qualsiasi delle quattro voci e localizzare ciascuna delle voci in una stanza.”
Il team ha testato i robot negli uffici, nei soggiorni e nelle cucine facendo parlare gruppi da tre a cinque persone. In tutti questi ambienti, il sistema è in grado di distinguere voci diverse entro 50 centimetri l’una dall’altra nel 90% dei casi, senza informazioni preventive sul numero di parlanti. Il sistema è stato in grado di elaborare tre secondi di audio in 1,82 secondi in media: abbastanza veloce per lo streaming live, anche se un po’ troppo lungo per comunicazioni in tempo reale come le videochiamate.
Con il progredire della tecnologia, dicono i ricercatori, gli sciami acustici potrebbero essere implementati nelle case intelligenti per differenziare meglio le persone che parlano con altoparlanti intelligenti. Ciò potrebbe potenzialmente consentire solo alle persone sedute su un divano, in una “zona attiva”, di controllare vocalmente una TV, ad esempio.
I ricercatori prevedono di realizzare eventualmente robot microfonici che possano muoversi nelle stanze, invece di limitarsi ai tavoli. Il team sta anche studiando se gli altoparlanti possono emettere suoni che consentono zone mute e attive nel mondo reale, in modo che le persone in diverse parti di una stanza possano sentire audio diverso. Lo studio attuale è un altro passo verso le tecnologie fantascientifiche, come il “cono del silenzio” in “Get Smart” e “Dune”, scrivono gli autori.
Naturalmente, qualsiasi tecnologia che evochi il confronto con strumenti di spionaggio fittizi solleverà questioni di privacy. I ricercatori riconoscono il potenziale di uso improprio, quindi hanno incluso delle misure di protezione contro questo: i microfoni navigano con il suono, non con una telecamera integrata come altri sistemi simili. I robot sono facilmente visibili e le loro luci lampeggiano quando sono attivi. Invece di elaborare l’audio nel cloud, come fanno la maggior parte degli altoparlanti intelligenti, gli sciami acustici elaborano tutto l’audio localmente, come vincolo di privacy. E anche se il primo pensiero di alcune persone potrebbe riguardare la sorveglianza, il sistema può essere utilizzato per il contrario, afferma il team.
“Ha il potenziale per apportare effettivamente benefici alla privacy, oltre ciò che consentono gli attuali altoparlanti intelligenti”, ha affermato Itani. “Posso dire: ‘Non registrare nulla intorno alla mia scrivania’ e il nostro sistema creerà una bolla di 3 piedi intorno a me. Niente in questa bolla verrebbe registrato. Oppure se due gruppi parlano uno accanto all’altro e un gruppo sta avendo una conversazione privata, mentre l’altro gruppo sta registrando, una conversazione può essere in una zona silenziosa e rimarrà privata.”
[ad_2]
Source link