[ad_1]
Nella nostra attuale era di intelligenza artificiale, i computer possono generare la propria “arte” attraverso modelli di diffusione, aggiungendo iterativamente struttura a uno stato iniziale rumoroso finché non emerge un’immagine o un video chiaro. I modelli di diffusione hanno improvvisamente preso posto al tavolo di tutti: inserisci poche parole e sperimenta paesaggi onirici istantanei e carichi di dopamina all’intersezione tra realtà e fantasia. Dietro le quinte, si tratta di un processo complesso e dispendioso in termini di tempo che richiede numerose iterazioni affinché l’algoritmo possa perfezionare l’immagine.
I ricercatori del MIT Computer Science and Artificial Intelligence Laboratory (CSAIL) hanno introdotto un nuovo quadro che semplifica il processo a più fasi dei modelli di diffusione tradizionali in un unico passaggio, affrontando le limitazioni precedenti. Ciò avviene attraverso una sorta di modello insegnante-studente: insegnare un nuovo modello computerizzato per imitare il comportamento di modelli più complicati e originali che generano immagini. L’approccio, noto come distillazione con corrispondenza della distribuzione (DMD), mantiene la qualità delle immagini generate e consente una generazione molto più rapida.
“Il nostro lavoro è un metodo innovativo che accelera di 30 volte gli attuali modelli di diffusione come Diffusione Stabile e DALLE-3”, afferma Tianwei Yin, uno studente di dottorato del MIT in ingegneria elettrica e informatica, affiliato CSAIL e ricercatore capo del DMD struttura. “Questo progresso non solo riduce significativamente il tempo di calcolo, ma mantiene anche, se non addirittura supera, la qualità del contenuto visivo generato. Teoricamente, l’approccio sposa i principi delle reti generative avversarie (GAN) con quelli dei modelli di diffusione, ottenendo la generazione di contenuti visivi in un unico passaggio – in netto contrasto con i cento passaggi di perfezionamento iterativo richiesti dagli attuali modelli di diffusione. Potrebbe potenzialmente essere un nuovo metodo di modellazione generativa che eccelle in velocità e qualità”.
Questo modello di diffusione in un’unica fase potrebbe migliorare gli strumenti di progettazione, consentendo una creazione più rapida di contenuti e potenzialmente supportando i progressi nella scoperta di farmaci e nella modellazione 3D, dove tempestività ed efficacia sono fondamentali.
Sogni di distribuzione
DMD ha abilmente due componenti. Innanzitutto, utilizza una perdita di regressione, che ancora la mappatura per garantire un’organizzazione grossolana dello spazio delle immagini per rendere la formazione più stabile. Successivamente, utilizza una perdita di corrispondenza della distribuzione, che garantisce che la probabilità di generare una determinata immagine con il modello studente corrisponda alla sua frequenza di occorrenza nel mondo reale. Per fare ciò, sfrutta due modelli di diffusione che fungono da guide, aiutando il sistema a comprendere la differenza tra immagini reali e generate e rendendo possibile l’addestramento del veloce generatore one-step.
Il sistema raggiunge una generazione più rapida addestrando una nuova rete per ridurre al minimo la divergenza di distribuzione tra le immagini generate e quelle del set di dati di addestramento utilizzato dai modelli di diffusione tradizionali. “La nostra intuizione chiave è approssimare i gradienti che guidano il miglioramento del nuovo modello utilizzando due modelli di diffusione”, afferma Yin. “In questo modo, distilliamo la conoscenza del modello originale e più complesso in quello più semplice e veloce, aggirando i famigerati problemi di instabilità e collasso della modalità nei GAN.”
Yin e colleghi hanno utilizzato reti pre-addestrate per il nuovo modello studentesco, semplificando il processo. Copiando e perfezionando i parametri dei modelli originali, il team ha ottenuto una rapida convergenza dell’addestramento del nuovo modello, che è in grado di produrre immagini di alta qualità con la stessa base architettonica. “Ciò consente la combinazione con altre ottimizzazioni del sistema basate sull’architettura originale per accelerare ulteriormente il processo di creazione”, aggiunge Yin.
Messo alla prova rispetto ai metodi consueti, utilizzando un’ampia gamma di benchmark, DMD ha mostrato prestazioni costanti. Sul popolare punto di riferimento della generazione di immagini basate su classi specifiche su ImageNet, DMD è la prima tecnica di diffusione in un unico passaggio che sforna immagini praticamente alla pari con quelle dei modelli originali e più complessi, oscillando una distanza di inizio Fréchet molto vicina ( FID) di appena 0,3, il che è impressionante, poiché il FID consiste nel giudicare la qualità e la diversità delle immagini generate. Inoltre, DMD eccelle nella generazione di testo in immagine su scala industriale e raggiunge prestazioni di generazione in un unico passaggio all’avanguardia. C’è ancora un leggero divario qualitativo quando si affrontano applicazioni text-to-image più complicate, suggerendo che c’è un po’ di margine di miglioramento in futuro.
Inoltre, le prestazioni delle immagini generate dal DMD sono intrinsecamente legate alle capacità del modello insegnante utilizzato durante il processo di distillazione. Nella forma attuale, che utilizza Stable Diffusion v1.5 come modello dell’insegnante, lo studente eredita limitazioni come il rendering di rappresentazioni dettagliate di testo e piccoli volti, suggerendo che le immagini generate da DMD potrebbero essere ulteriormente migliorate da modelli dell’insegnante più avanzati.
“La diminuzione del numero di iterazioni è stato il Santo Graal dei modelli di diffusione sin dal loro inizio”, afferma Fredo Durand, professore di ingegneria elettrica e informatica del MIT, ricercatore principale del CSAIL e autore principale dell’articolo. “Siamo molto entusiasti di consentire finalmente la generazione di immagini in un unico passaggio, che ridurrà drasticamente i costi di elaborazione e accelererà il processo”.
“Finalmente un articolo che combina con successo la versatilità e l’elevata qualità visiva dei modelli di diffusione con le prestazioni in tempo reale dei GAN”, afferma Alexei Efros, professore di ingegneria elettrica e informatica presso l’Università della California a Berkeley, non coinvolto in questo studio. “Mi aspetto che questo lavoro apra fantastiche possibilità per l’editing visivo in tempo reale di alta qualità.”
I colleghi autori di Yin e Durand sono il professore di ingegneria elettrica e informatica del MIT e il ricercatore principale del CSAIL William T. Freeman, nonché i ricercatori Adobe Michaël Gharbi SM ’15, PhD ’18; Richard Zhang; Eli Shechtmann; e il Parco Taesung. Il loro lavoro è stato sostenuto, in parte, dalle sovvenzioni della National Science Foundation statunitense (inclusa una per l’Institute for Artificial Intelligence and Fundamental Interactions), dalla Singapore Defense Science and Technology Agency e dai finanziamenti del Gwangju Institute of Science and Technology e di Amazon. Il loro lavoro sarà presentato alla conferenza sulla visione artificiale e il riconoscimento dei modelli a giugno.
[ad_2]
Source link