[ad_1]
Man mano che ci avventuriamo più in profondità nel regno dell’apprendimento automatico e dell’intelligenza artificiale generativa (GenAI), l’enfasi sulla qualità dei dati diventa fondamentale. John Jeske, CTO dell’Advanced Technology Innovation Group presso KMS Technology, approfondisce le metodologie di governance dei dati come il tracciamento della derivazione dei dati e l’apprendimento federato per garantire prestazioni del modello di alto livello.
“La qualità dei dati è il fulcro del modello di sostenibilità e di fiducia degli stakeholder. Nel processo di modellazione, la qualità dei dati semplifica la manutenzione a lungo termine e ti mette nella posizione di creare fiducia negli utenti e nella comunità delle parti interessate. L’impatto del principio “garbage in, garbage out” è esacerbato nei modelli complessi, tra cui il linguaggio su larga scala e gli algoritmi generativi”, afferma Jeske.
Il problema della distorsione GenAI e della rappresentatività dei dati
Una cattiva qualità dei dati culmina inevitabilmente in modelli GenAI distorti, indipendentemente dal modello che scegli per il tuo caso d’uso. Le insidie spesso derivano da dati di training che travisano l’ambito dell’organizzazione, la base di clienti o lo spettro di applicazioni.
“La vera risorsa sono i dati stessi, non modelli effimeri o architetture di modellazione. Con l’emergere di numerosi modelli di riferimento negli ultimi mesi, il valore costante dei dati come risorsa monetizzabile diventa evidente in modo evidente”, spiega Jeske.
Jeff Scott, SVP, Software Services presso KMS Technology, aggiunge: “Quando il contenuto generato dall’intelligenza artificiale si discosta dagli output previsti, non è un errore dell’algoritmo. Invece, è il riflesso di dati di addestramento inadeguati o distorti”.
Governance rigorosa per l’integrità dei dati
Le migliori pratiche nella governance dei dati comprendono attività come la gestione dei metadati, la cura dei dati e l’implementazione di controlli di qualità automatizzati. Gli esempi includono la garanzia dell’origine dei dati, l’utilizzo di set di dati certificati durante l’acquisizione di dati per l’addestramento e la modellazione e la considerazione di strumenti automatizzati per la qualità dei dati. Pur aggiungendo un livello di complessità, questi strumenti sono fondamentali per raggiungere l’integrità dei dati.
“Per migliorare la qualità dei dati, utilizziamo strumenti che offrono attributi come validità dei dati, controlli di completezza e coerenza temporale. Ciò facilita la creazione di dati affidabili e coerenti, indispensabili per modelli di intelligenza artificiale robusti», osserva Jeske.
Responsabilità e miglioramento continuo nello sviluppo dell’intelligenza artificiale
I dati sono un problema di tutti e assegnare le responsabilità di governance dei dati all’interno dell’organizzazione è un compito fondamentale.
È fondamentale garantire che la funzionalità funzioni come previsto e che i dati addestrati siano ragionevoli dal punto di vista del potenziale cliente. Il feedback rafforza l’apprendimento e viene quindi tenuto in considerazione la volta successiva che il modello viene addestrato, invocando un miglioramento continuo fino al punto di fiducia.
“Nei nostri flussi di lavoro, i modelli AI e ML vengono sottoposti a rigorosi test interni prima di essere lanciati al pubblico. I nostri team di ingegneria dei dati ricevono continuamente feedback, consentendo il perfezionamento iterativo dei modelli per ridurre al minimo le distorsioni e altre anomalie”, afferma Scott.
Gestione del rischio e fiducia del cliente
La governance dei dati richiede la gestione dei dati da parte delle aree rilevanti dell’azienda con il coinvolgimento costante di esperti in materia. Ciò garantisce la responsabilità che i dati che fluiscono attraverso i loro team e sistemi siano adeguatamente curati e coerenti.
È necessario comprendere il rischio associato alla ricezione di risultati imprecisi dalla tecnologia. Un’organizzazione deve valutare la propria trasparenza dall’approvvigionamento dei dati e dalla gestione della proprietà intellettuale alla qualità e integrità complessiva dei dati.
“La trasparenza è fondamentale per la fiducia dei clienti. La governance dei dati non è solo uno sforzo tecnico; ha inoltre un impatto sulla reputazione di un’azienda a causa del trasferimento del rischio derivante da previsioni imprecise dell’intelligenza artificiale all’utente finale”, sottolinea Scott.
In conclusione, man mano che la GenAI continua ad evolversi, padroneggiare la governance dei dati diventa sempre più fondamentale. Non si tratta solo di mantenere la qualità dei dati, ma anche di comprendere le complesse relazioni che questi dati hanno con i modelli di intelligenza artificiale che li sfruttano. Questa visione è vitale per il progresso tecnologico, la salute dell’azienda e per mantenere la fiducia sia delle parti interessate che del pubblico in generale.
[ad_2]
Source link