[ad_1]
L’intelligenza artificiale generativa sta ricevendo molta attenzione per la sua capacità di creare testo e immagini. Ma questi media rappresentano solo una frazione dei dati che proliferano oggi nella nostra società. I dati vengono generati ogni volta che un paziente attraversa un sistema medico, una tempesta colpisce un volo o una persona interagisce con un’applicazione software.
L’uso dell’intelligenza artificiale generativa per creare dati sintetici realistici attorno a questi scenari può aiutare le organizzazioni a curare i pazienti in modo più efficace, reindirizzare gli aerei o migliorare le piattaforme software, soprattutto in scenari in cui i dati del mondo reale sono limitati o sensibili.
Negli ultimi tre anni, DataCebo, spin-out del MIT, ha offerto un sistema software generativo chiamato Synthetic Data Vault per aiutare le organizzazioni a creare dati sintetici per fare cose come testare applicazioni software e addestrare modelli di apprendimento automatico.
Il Synthetic Data Vault, o SDV, è stato scaricato più di 1 milione di volte, con più di 10.000 data scientist che utilizzano la libreria open source per generare dati tabulari sintetici. I fondatori, il ricercatore principale Kalyan Veeramachaneni e l’ex studentessa Neha Patki ’15, SM ’16, credono che il successo dell’azienda sia dovuto alla capacità di SDV di rivoluzionare i test del software.
SDV diventa virale
Nel 2016, il gruppo di Veeramachaneni nel Data to AI Lab ha presentato una suite di strumenti di intelligenza artificiale generativa open source per aiutare le organizzazioni a creare dati sintetici che corrispondessero alle proprietà statistiche dei dati reali.
Le aziende possono utilizzare dati sintetici anziché informazioni sensibili nei programmi preservando comunque le relazioni statistiche tra i punti dati. Le aziende possono anche utilizzare dati sintetici per eseguire nuovi software attraverso simulazioni per vedere come si comportano prima di rilasciarli al pubblico.
Il gruppo di Veeramachaneni si è imbattuto nel problema perché stava lavorando con aziende che volevano condividere i propri dati per la ricerca.
“Il MIT ti aiuta a vedere tutti questi diversi casi d’uso”, spiega Patki. “Lavori con società finanziarie e aziende sanitarie e tutti questi progetti sono utili per formulare soluzioni in tutti i settori.”
Nel 2020, i ricercatori hanno fondato DataCebo per creare più funzionalità SDV per le organizzazioni più grandi. Da allora, i casi d’uso sono stati tanto impressionanti quanto vari.
Con il nuovo simulatore di volo di DataCebo, ad esempio, le compagnie aeree possono pianificare eventi meteorologici rari in un modo che sarebbe impossibile utilizzando solo dati storici. In un’altra applicazione, gli utenti dell’SDV hanno sintetizzato le cartelle cliniche per prevedere gli esiti sanitari dei pazienti affetti da fibrosi cistica. Un team norvegese ha recentemente utilizzato l’SDV per creare dati sintetici sugli studenti per valutare se le varie politiche di ammissione fossero meritocratiche e prive di pregiudizi.
Nel 2021, la piattaforma di data science Kaggle ha ospitato un concorso per data scientist che hanno utilizzato SDV per creare set di dati sintetici per evitare l’utilizzo di dati proprietari. Hanno partecipato circa 30.000 data scientist, sviluppando soluzioni e prevedendo risultati sulla base di dati realistici dell’azienda.
E man mano che DataCebo è cresciuta, è rimasta fedele alle sue radici al MIT: tutti gli attuali dipendenti dell’azienda sono ex studenti del MIT.
Test del software potenziato
Sebbene i loro strumenti open source vengano utilizzati per una varietà di casi d’uso, l’azienda si concentra sulla crescita della propria popolarità nei test del software.
“Sono necessari dati per testare queste applicazioni software”, afferma Veeramachaneni. “Tradizionalmente, gli sviluppatori scrivono manualmente script per creare dati sintetici. Con i modelli generativi, creati utilizzando SDV, puoi imparare da un campione di dati raccolti e quindi campionare un grande volume di dati sintetici (che hanno le stesse proprietà dei dati reali), oppure creare scenari specifici e casi limite e utilizzare i dati per prova la tua applicazione.”
Ad esempio, se una banca volesse testare un programma progettato per rifiutare i trasferimenti da conti senza denaro, dovrebbe simulare più conti che effettuano transazioni simultaneamente. Farlo con i dati creati manualmente richiederebbe molto tempo. Con i modelli generativi di DataCebo, i clienti possono creare qualsiasi caso limite che desiderano testare.
“È normale che le industrie dispongano di dati sensibili in qualche modo”, afferma Patki. “Spesso quando ti trovi in un dominio con dati sensibili hai a che fare con normative e anche se non esistono normative legali, è nell’interesse delle aziende essere diligenti su chi può accedere a cosa e in quale momento. Quindi, i dati sintetici sono sempre migliori dal punto di vista della privacy”.
Ridimensionamento dei dati sintetici
Veeramachaneni ritiene che DataCebo stia facendo avanzare il campo di quelli che chiama dati aziendali sintetici, o dati generati dal comportamento degli utenti sulle applicazioni software delle grandi aziende.
“I dati aziendali di questo tipo sono complessi e non sono disponibili in modo universale, a differenza dei dati linguistici”, afferma Veeramachaneni. “Quando le persone utilizzano il nostro software disponibile pubblicamente e segnalano se funziona secondo un determinato modello, impariamo molti di questi modelli unici e questo ci consente di migliorare i nostri algoritmi. Da un certo punto di vista, stiamo costruendo un corpus di questi modelli complessi, che per il linguaggio e le immagini è facilmente disponibile. “
DataCebo ha inoltre recentemente rilasciato funzionalità per migliorare l’utilità di SDV, inclusi strumenti per valutare il “realismo” dei dati generati, chiamati la libreria SDMetrics, nonché un modo per confrontare le prestazioni dei modelli chiamato SDGym.
“Si tratta di garantire che le organizzazioni si fidino di questi nuovi dati”, afferma Veeramachaneni. “[Our tools offer] dati sintetici programmabili, il che significa che consentiamo alle aziende di inserire le loro conoscenze e intuizioni specifiche per costruire modelli più trasparenti”.
Mentre le aziende di ogni settore si affrettano ad adottare l’intelligenza artificiale e altri strumenti di data science, DataCebo le aiuta a farlo in un modo più trasparente e responsabile.
“Nei prossimi anni, i dati sintetici provenienti da modelli generativi trasformeranno tutto il lavoro sui dati”, afferma Veeramachaneni. “Crediamo che il 90% delle operazioni aziendali possa essere svolto con dati sintetici”.
[ad_2]
Source link