[ad_1]
Poiché le organizzazioni raccolgono set di dati più grandi con potenziali approfondimenti sull’attività aziendale, il rilevamento di dati anomali o valori anomali in questi set di dati è essenziale per scoprire inefficienze, eventi rari, la causa principale dei problemi o opportunità di miglioramenti operativi. Ma cos’è un’anomalia e perché è importante rilevarla?
I tipi di anomalie variano a seconda dell’impresa e della funzione aziendale. Il rilevamento delle anomalie significa semplicemente definire modelli e parametri “normali”, basati su funzioni e obiettivi aziendali, e identificare punti dati che non rientrano nel normale comportamento di un’operazione. Ad esempio, un traffico superiore alla media su un sito Web o un’applicazione per un determinato periodo può segnalare una minaccia alla sicurezza informatica, nel qual caso ti consigliamo un sistema in grado di attivare automaticamente avvisi di rilevamento di frodi. Potrebbe anche essere solo un segno che una particolare iniziativa di marketing sta funzionando. Le anomalie non sono intrinsecamente negative, ma esserne consapevoli e disporre di dati per inserirle nel contesto è fondamentale per comprendere e proteggere la propria attività.
La sfida per i dipartimenti IT che lavorano nella scienza dei dati è dare un senso ai punti dati in espansione e in continua evoluzione. In questo blog esamineremo come le tecniche di machine learning, basate sull’intelligenza artificiale, vengono sfruttate per rilevare comportamenti anomali attraverso tre diversi metodi di rilevamento delle anomalie: rilevamento di anomalie supervisionato, rilevamento di anomalie non supervisionato e rilevamento di anomalie semi-supervisionato.
Apprendimento supervisionato
Le tecniche di apprendimento supervisionato utilizzano dati di input e output del mondo reale per rilevare anomalie. Questi tipi di sistemi di rilevamento delle anomalie richiedono che un analista di dati etichetti i punti dati come normali o anomali per poterli utilizzare come dati di training. Un modello di machine learning addestrato con dati etichettati sarà in grado di rilevare valori anomali in base agli esempi forniti. Questo tipo di apprendimento automatico è utile nel rilevamento di valori anomali noti, ma non è in grado di scoprire anomalie sconosciute o prevedere problemi futuri.
Gli algoritmi comuni di machine learning per l’apprendimento supervisionato includono:
- Algoritmo K-vicino più vicino (KNN).: Questo algoritmo è un classificatore basato sulla densità o uno strumento di modellazione di regressione utilizzato per il rilevamento di anomalie. La modellazione di regressione è uno strumento statistico utilizzato per trovare la relazione tra dati etichettati e dati variabili. Funziona partendo dal presupposto che punti dati simili verranno trovati uno vicino all’altro. Se un punto dati appare più lontano da una sezione densa di punti, è considerata un’anomalia.
- Fattore anomalo locale (LOF): il fattore anomalo locale è simile a KNN in quanto è un algoritmo basato sulla densità. La differenza principale è che mentre KNN fa ipotesi basate su punti dati più vicini tra loro, LOF utilizza i punti più distanti per trarre le sue conclusioni.
Apprendimento non supervisionato
Le tecniche di apprendimento non supervisionato non richiedono dati etichettati e possono gestire set di dati più complessi. L’apprendimento non supervisionato è alimentato dal deep learning e dalle reti neurali o dai codificatori automatici che imitano il modo in cui i neuroni biologici si segnalano tra loro. Questi potenti strumenti possono trovare modelli dai dati di input e formulare ipotesi su quali dati siano percepiti come normali.
Queste tecniche possono fare molto per scoprire anomalie sconosciute e ridurre il lavoro di vagliatura manuale di grandi set di dati. Tuttavia, i data scientist dovrebbero monitorare i risultati raccolti attraverso l’apprendimento non supervisionato. Poiché queste tecniche fanno delle ipotesi sui dati immessi, è possibile che etichettino erroneamente le anomalie.
Gli algoritmi di apprendimento automatico per dati non strutturati includono:
K-significa: Questo algoritmo è una tecnica di visualizzazione dei dati che elabora i punti dati attraverso un’equazione matematica con l’intenzione di raggruppare punti dati simili. Le “medie”, o dati medi, si riferiscono ai punti al centro del cluster a cui sono correlati tutti gli altri dati. Attraverso l’analisi dei dati, questi cluster possono essere utilizzati per trovare modelli e fare inferenze sui dati che risultano fuori dall’ordinario.
Foresta di isolamento: Questo tipo di algoritmo di rilevamento delle anomalie utilizza dati non supervisionati. A differenza delle tecniche di rilevamento delle anomalie supervisionate, che funzionano da punti dati normali etichettati, questa tecnica tenta di isolare le anomalie come primo passo. Simile a una “foresta casuale”, crea “alberi decisionali” che mappano i punti dati e selezionano casualmente un’area da analizzare. Questo processo viene ripetuto e ogni punto riceve un punteggio di anomalia compreso tra 0 e 1, in base alla sua posizione rispetto agli altri punti; i valori inferiori a 0,5 sono generalmente considerati normali, mentre i valori che superano tale soglia hanno maggiori probabilità di essere anomali. I modelli di foresta di isolamento sono disponibili nella libreria di machine learning gratuita per Python, scikit-learn.
Macchina vettoriale di supporto di una classe (SVM): Questa tecnica di rilevamento delle anomalie utilizza i dati di addestramento per delimitare ciò che è considerato normale. I punti raggruppati all’interno dei confini stabiliti sono considerati normali e quelli all’esterno sono etichettati come anomalie.
Apprendimento semi-supervisionato
I metodi di rilevamento delle anomalie semi-supervisionati combinano i vantaggi dei due metodi precedenti. Gli ingegneri possono applicare metodi di apprendimento non supervisionato per automatizzare l’apprendimento delle funzionalità e lavorare con dati non strutturati. Tuttavia, combinandolo con la supervisione umana, hanno l’opportunità di monitorare e controllare il tipo di modelli che il modello apprende. Questo di solito aiuta a rendere le previsioni del modello più accurate.
Regressione lineare: questo strumento di apprendimento automatico predittivo utilizza variabili dipendenti e indipendenti. La variabile indipendente viene utilizzata come base per determinare il valore della variabile dipendente attraverso una serie di equazioni statistiche. Queste equazioni utilizzano dati etichettati e non etichettati per prevedere i risultati futuri quando solo alcune delle informazioni sono note.
Casi d’uso del rilevamento di anomalie
Il rilevamento delle anomalie è uno strumento importante per il mantenimento delle funzioni aziendali in vari settori. L’uso di algoritmi di apprendimento supervisionato, non supervisionato e semi-supervisionato dipenderà dal tipo di dati raccolti e dalla sfida operativa da risolvere. Esempi di casi d’uso del rilevamento di anomalie includono:
Casi d’uso dell’apprendimento supervisionato:
Vedere al dettaglio
L’utilizzo dei dati etichettati dei totali di vendita dell’anno precedente può aiutare a prevedere gli obiettivi di vendita futuri. Può anche aiutare a stabilire parametri di riferimento per specifici addetti alle vendite in base alle loro prestazioni passate e alle esigenze complessive dell’azienda. Poiché tutti i dati di vendita sono noti, è possibile analizzare i modelli per ottenere approfondimenti su prodotti, marketing e stagionalità.
Previsioni del tempo
Utilizzando dati storici, gli algoritmi di apprendimento supervisionato possono aiutare nella previsione dei modelli meteorologici. L’analisi dei dati recenti relativi alla pressione barometrica, alla temperatura e alla velocità del vento consente ai meteorologi di creare previsioni più accurate che tengono conto dei cambiamenti delle condizioni.
Casi d’uso dell’apprendimento non supervisionato:
Sistema di rilevamento delle intrusioni
Questi tipi di sistemi si presentano sotto forma di software o hardware, che monitorano il traffico di rete per rilevare segnali di violazioni della sicurezza o attività dannose. Gli algoritmi di apprendimento automatico possono essere addestrati per rilevare potenziali attacchi a una rete in tempo reale, proteggendo le informazioni dell’utente e le funzioni del sistema.
Questi algoritmi possono creare una visualizzazione delle prestazioni normali basata su dati di serie temporali, che analizzano i punti dati a intervalli prestabiliti per un periodo di tempo prolungato. Picchi nel traffico di rete o modelli imprevisti possono essere contrassegnati ed esaminati come potenziali violazioni della sicurezza.
Produzione
Assicurarsi che i macchinari funzionino correttamente è fondamentale per fabbricare prodotti, ottimizzare la garanzia della qualità e mantenere le catene di approvvigionamento. Gli algoritmi di apprendimento non supervisionato possono essere utilizzati per la manutenzione predittiva, prelevando dati non etichettati dai sensori collegati alle apparecchiature e facendo previsioni su potenziali guasti o malfunzionamenti. Ciò consente alle aziende di effettuare riparazioni prima che si verifichi un guasto critico, riducendo i tempi di fermo macchina.
Casi d’uso dell’apprendimento semi-supervisionato:
Medico
Utilizzando algoritmi di apprendimento automatico, i professionisti medici possono etichettare immagini che contengono malattie o disturbi noti. Tuttavia, poiché le immagini variano da persona a persona, è impossibile etichettare tutte le potenziali cause di preoccupazione. Una volta addestrati, questi algoritmi possono elaborare le informazioni del paziente e fare inferenze in immagini senza etichetta e segnalare potenziali motivi di preoccupazione.
Intercettazione di una frode
Gli algoritmi predittivi possono utilizzare l’apprendimento semi-supervisionato che richiede sia dati etichettati che non etichettati per rilevare le frodi. Poiché l’attività della carta di credito di un utente è etichettata, può essere utilizzata per rilevare modelli di spesa insoliti.
Tuttavia, le soluzioni di rilevamento delle frodi non si basano esclusivamente sulle transazioni precedentemente etichettate come frode; possono anche fare ipotesi basate sul comportamento dell’utente, inclusa la posizione corrente, il dispositivo di accesso e altri fattori che richiedono dati senza etichetta.
Osservabilità nel rilevamento di anomalie
Il rilevamento delle anomalie è supportato da soluzioni e strumenti che garantiscono una maggiore osservabilità dei dati sulle prestazioni. Questi strumenti consentono di identificare rapidamente le anomalie, aiutando a prevenire e risolvere i problemi. IBM® Instana™ Observability sfrutta l’intelligenza artificiale e il machine learning per offrire a tutti i membri del team un quadro dettagliato e contestualizzato dei dati sulle prestazioni, aiutando a prevedere con precisione e a risolvere in modo proattivo gli errori.
IBM watsonx.ai™ offre un potente strumento di intelligenza artificiale generativa in grado di analizzare set di dati di grandi dimensioni per estrarre insight significativi. Attraverso un’analisi rapida e completa, IBM watson.ai può identificare modelli e tendenze che possono essere utilizzati per rilevare anomalie attuali e fare previsioni sui futuri valori anomali. Watson.ai può essere utilizzato in tutti i settori per una varietà di esigenze aziendali.
Esplora IBM Instana Observability Esplora IBM watsonx.ai
[ad_2]
Source link