[ad_1]
Immagina di guardare per qualche istante una strada trafficata, poi di provare a disegnare a memoria la scena che hai visto. La maggior parte delle persone potrebbe disegnare le posizioni approssimative degli oggetti principali come automobili, persone e strisce pedonali, ma quasi nessuno può disegnare ogni dettaglio con una precisione perfetta al pixel. Lo stesso vale per la maggior parte dei moderni algoritmi di visione artificiale: sono fantastici nel catturare i dettagli di alto livello di una scena, ma perdono i dettagli a grana fine mentre elaborano le informazioni.
Ora, i ricercatori del MIT hanno creato un sistema chiamato “FeatUp” che consente agli algoritmi di catturare tutti i dettagli di alto e basso livello di una scena allo stesso tempo, quasi come la chirurgia oculare Lasik per la visione artificiale.
Quando i computer imparano a “vedere” guardando immagini e video, costruiscono “idee” di ciò che è presente in una scena attraverso qualcosa chiamato “caratteristiche”. Per creare queste funzionalità, le reti profonde e i modelli di base visiva scompongono le immagini in una griglia di piccoli quadrati ed elaborano questi quadrati come un gruppo per determinare cosa sta succedendo in una foto. Ogni piccolo quadrato è solitamente composto da 16 a 32 pixel, quindi la risoluzione di questi algoritmi è notevolmente inferiore rispetto alle immagini con cui lavorano. Nel tentativo di riassumere e comprendere le foto, gli algoritmi perdono moltissima chiarezza dei pixel.
L’algoritmo FeatUp può fermare questa perdita di informazioni e aumentare la risoluzione di qualsiasi rete profonda senza compromettere velocità o qualità. Ciò consente ai ricercatori di migliorare rapidamente e facilmente la risoluzione di qualsiasi algoritmo nuovo o esistente. Ad esempio, immagina di provare a interpretare le previsioni di un algoritmo di rilevamento del cancro del polmone con l’obiettivo di localizzare il tumore. L’applicazione di FeatUp prima di interpretare l’algoritmo utilizzando un metodo come le mappe di attivazione delle classi (CAM) può produrre una visione notevolmente più dettagliata (16-32x) di dove potrebbe essere localizzato il tumore in base al modello.
FeatUp non solo aiuta i professionisti a comprendere i propri modelli, ma può anche migliorare una serie di attività diverse come il rilevamento di oggetti, la segmentazione semantica (assegnazione di etichette ai pixel in un’immagine con etichette di oggetti) e la stima della profondità. Raggiunge questo obiettivo fornendo funzionalità più precise e ad alta risoluzione, fondamentali per la creazione di applicazioni di visione che vanno dalla guida autonoma all’imaging medico.
“L’essenza di tutta la visione artificiale risiede in queste caratteristiche profonde e intelligenti che emergono dalle profondità delle architetture di deep learning. La grande sfida degli algoritmi moderni è che riducono le immagini di grandi dimensioni a griglie molto piccole di caratteristiche “intelligenti”, ottenendo informazioni intelligenti ma perdendo i dettagli più fini”, afferma Mark Hamilton, uno studente di dottorato in ingegneria elettrica e informatica, MIT Computer Science. e affiliato del Laboratorio di Intelligenza Artificiale (CSAIL) e co-autore principale di un articolo sul progetto. “FeatUp aiuta a ottenere il meglio di entrambi i mondi: rappresentazioni altamente intelligenti con la risoluzione dell’immagine originale. Queste funzionalità ad alta risoluzione aumentano significativamente le prestazioni in una vasta gamma di attività di visione artificiale, dal miglioramento del rilevamento degli oggetti e del miglioramento della previsione della profondità alla fornitura di una comprensione più profonda del processo decisionale della rete attraverso l’analisi ad alta risoluzione”.
Rinascimento della risoluzione
Man mano che questi grandi modelli di intelligenza artificiale diventano sempre più diffusi, c’è una crescente necessità di spiegare cosa stanno facendo, cosa stanno guardando e cosa stanno pensando.
Ma come può esattamente FeatUp scoprire questi dettagli a grana fine? Curiosamente, il segreto sta nelle immagini che si muovono e tremolano.
In particolare, FeatUp applica piccole modifiche (come spostare l’immagine di alcuni pixel a sinistra o a destra) e osserva come un algoritmo risponde a questi leggeri movimenti dell’immagine. Ciò si traduce in centinaia di mappe di funzionalità profonde che sono tutte leggermente diverse, che possono essere combinate in un unico insieme di funzionalità profonde nitido e ad alta risoluzione. “Immaginiamo che esistano alcune caratteristiche ad alta risoluzione e che quando le muoviamo e le offusiamo, corrisponderanno a tutte le caratteristiche originali a bassa risoluzione delle immagini mosse. Il nostro obiettivo è imparare come perfezionare le funzionalità a bassa risoluzione in funzionalità ad alta risoluzione utilizzando questo “gioco” che ci consente di sapere quanto stiamo andando bene”, afferma Hamilton. Questa metodologia è analoga al modo in cui gli algoritmi possono creare un modello 3D da più immagini 2D garantendo che l’oggetto 3D previsto corrisponda a tutte le foto 2D utilizzate per crearlo. Nel caso di FeatUp, prevedono una mappa delle caratteristiche ad alta risoluzione che è coerente con tutte le mappe delle caratteristiche a bassa risoluzione formate dal jitter dell’immagine originale.
Il team rileva che gli strumenti standard disponibili in PyTorch erano insufficienti per le loro esigenze e ha introdotto un nuovo tipo di livello di rete profondo nella ricerca di una soluzione rapida ed efficiente. Il loro livello personalizzato, una speciale operazione di sovracampionamento bilaterale congiunto, era oltre 100 volte più efficiente di un’implementazione ingenua in PyTorch. Il team ha inoltre dimostrato che questo nuovo livello potrebbe migliorare un’ampia varietà di algoritmi diversi, tra cui la segmentazione semantica e la previsione della profondità. Questo livello ha migliorato la capacità della rete di elaborare e comprendere i dettagli ad alta risoluzione, fornendo a qualsiasi algoritmo che lo utilizzava un sostanziale incremento delle prestazioni.
“Un’altra applicazione è qualcosa chiamato recupero di piccoli oggetti, in cui il nostro algoritmo consente la localizzazione precisa degli oggetti. Ad esempio, anche nelle scene stradali disordinate gli algoritmi arricchiti con FeatUp possono vedere piccoli oggetti come coni stradali, catarifrangenti, luci e buche dove i loro cugini a bassa risoluzione falliscono. Ciò dimostra la sua capacità di trasformare caratteristiche grossolane in segnali finemente dettagliati”, afferma Stephanie Fu ’22, MNG ’23, studentessa di dottorato presso l’Università della California a Berkeley e un’altra co-autrice principale del nuovo articolo di FeatUp. “Ciò è particolarmente importante per attività urgenti, come individuare un segnale stradale su una superstrada disordinata in un’auto senza conducente. Ciò non solo può migliorare la precisione di tali attività trasformando ipotesi generali in localizzazioni esatte, ma potrebbe anche rendere questi sistemi più affidabili, interpretabili e affidabili”.
E dopo?
Per quanto riguarda le aspirazioni future, il team sottolinea la potenziale adozione diffusa di FeatUp all’interno della comunità di ricerca e oltre, simile alle pratiche di aumento dei dati. “L’obiettivo è rendere questo metodo uno strumento fondamentale nell’apprendimento profondo, arricchendo i modelli per percepire il mondo in modo più dettagliato senza l’inefficienza computazionale della tradizionale elaborazione ad alta risoluzione”, afferma Fu.
“FeatUp rappresenta un meraviglioso passo avanti nel rendere le rappresentazioni visive davvero utili, producendole alla massima risoluzione delle immagini”, afferma Noah Snavely, professore di informatica della Cornell University, che non è stato coinvolto nella ricerca. “Le rappresentazioni visive acquisite sono diventate davvero valide negli ultimi anni, ma sono quasi sempre prodotte a una risoluzione molto bassa: potresti inserire una bella foto a piena risoluzione e ottenere una piccola griglia di caratteristiche delle dimensioni di un francobollo. Questo è un problema se desideri utilizzare queste funzionalità in applicazioni che producono output a piena risoluzione. FeatUp risolve questo problema in modo creativo combinando idee classiche in super-risoluzione con approcci di apprendimento moderni, portando a bellissime mappe di funzionalità ad alta risoluzione.
“Ci auguriamo che questa semplice idea possa avere ampia applicazione. Fornisce versioni ad alta risoluzione dell’analisi delle immagini che prima pensavamo potessero essere solo a bassa risoluzione”, afferma l’autore senior William T. Freeman, professore di ingegneria elettrica e informatica del MIT e membro CSAIL.
Gli autori principali Fu e Hamilton sono accompagnati dagli studenti di dottorato del MIT Laura Brandt SM ’21 e Axel Feldmann SM ’21, nonché da Zhoutong Zhang SM ’21, PhD ’22, tutti attuali o ex affiliati del MIT CSAIL. La loro ricerca è supportata, in parte, da una borsa di ricerca per laureati della National Science Foundation, dalla National Science Foundation e dall’Ufficio del Direttore dell’intelligence nazionale, dal Laboratorio di ricerca dell’aeronautica statunitense e dall’Artificial Intelligence Accelerator dell’aeronautica statunitense. Il gruppo presenterà il proprio lavoro a maggio alla Conferenza internazionale sulle rappresentazioni dell’apprendimento.
[ad_2]
Source link