[ad_1]
In diverse applicazioni della visione artificiale, come la realtà aumentata e le auto a guida autonoma, stimare la distanza tra gli oggetti e la telecamera è un compito essenziale. La profondità di messa a fuoco/defocus è una delle tecniche che consente di ottenere tale processo utilizzando la sfocatura nelle immagini come indizio. La profondità di messa a fuoco/defocus richiede solitamente una pila di immagini della stessa scena scattate con distanze di messa a fuoco diverse, una tecnica nota come pila focale.
Negli ultimi dieci anni circa, gli scienziati hanno proposto molti metodi diversi per ottenere la profondità dalla messa a fuoco/defocus, la maggior parte dei quali può essere divisa in due categorie. La prima categoria comprende metodi basati su modelli, che utilizzano modelli matematici e ottici per stimare la profondità della scena in base alla nitidezza o alla sfocatura. Il problema principale di tali metodi, tuttavia, è che falliscono nel caso di superfici prive di texture che appaiono praticamente identiche su tutto lo stack focale.
La seconda categoria comprende metodi basati sull’apprendimento, che possono essere addestrati per eseguire in modo efficiente la profondità dalla messa a fuoco/sfocatura, anche per superfici prive di texture. Tuttavia, questi approcci falliscono se le impostazioni della fotocamera utilizzate per uno stack focale di input sono diverse da quelle utilizzate nel set di dati di addestramento.
Superando ora queste limitazioni, un team di ricercatori giapponesi ha ideato un metodo innovativo per la profondità di messa a fuoco/defocus che affronta contemporaneamente i problemi sopra menzionati. Il loro studio, pubblicato su Giornale internazionale di visione artificialeè stato guidato da Yasuhiro Mukaigawa e Yuki Fujimura del Nara Institute of Science and Technology (NAIST), in Giappone.
La tecnica proposta, doppiata profondità profonda dalla pila focale (DDFS), combina la stima della profondità basata su modello con un quadro di apprendimento per ottenere il meglio da entrambi i mondi. Ispirato da una strategia utilizzata nella visione stereo, DDFS prevede la definizione di un “volume di costo” basato sullo stack focale di input, sulle impostazioni della fotocamera e su un modello di sfocatura dell’obiettivo. In poche parole, il volume dei costi rappresenta una serie di ipotesi di profondità – potenziali valori di profondità per ciascun pixel – e un valore di costo associato calcolato sulla base della coerenza tra le immagini nella pila focale. “Il volume dei costi impone un vincolo tra le immagini sfocate e la profondità della scena, fungendo da rappresentazione intermedia che consente la stima della profondità con diverse impostazioni della fotocamera nei momenti di formazione e di prova”, spiega Mukaigawa.
Il metodo DDFS utilizza anche una rete codificatore-decodificatore, un’architettura di apprendimento automatico comunemente utilizzata. Questa rete stima progressivamente la profondità della scena in modo da grossolano a fine, utilizzando l’aggregazione dei costi in ogni fase per apprendere in modo adattivo le strutture localizzate nelle immagini.
I ricercatori hanno confrontato le prestazioni del DDFS con quelle di altri metodi di profondità di messa a fuoco/defocus all’avanguardia. In particolare, l’approccio proposto ha sovraperformato la maggior parte dei metodi in vari parametri per diversi set di dati di immagini. Ulteriori esperimenti sugli stack focali catturati con la fotocamera del team di ricerca hanno ulteriormente dimostrato il potenziale del DDFS, rendendolo utile anche con solo poche immagini di input negli stack di input, a differenza di altre tecniche.
Nel complesso, DDFS potrebbe rappresentare un approccio promettente per le applicazioni in cui è richiesta la stima della profondità, tra cui robotica, veicoli autonomi, ricostruzione di immagini 3D, realtà virtuale e aumentata e sorveglianza. “Il nostro metodo con l’invarianza delle impostazioni della telecamera può aiutare ad estendere l’applicabilità delle tecniche di stima della profondità basate sull’apprendimento”, conclude Mukaigawa.
Speriamo che questo studio apra la strada a sistemi di visione artificiale più capaci.
[ad_2]
Source link