[ad_1]
Esistono molti motivi per cui le voci duplicate potrebbero finire in un database ed è importante che le aziende abbiano un modo per gestirli per garantire che i dati dei clienti siano quanto più accurati possibile.
Nell’episodio 5 del Tempi SD in diretta! Serie di microwebinar di verifica dei datiTim Sidor, analista della qualità dei dati presso la società di qualità dei dati Melissaha spiegato due diversi approcci che le aziende possono adottare per portare a termine l’attività di corrispondenza dei dati, ovvero il processo di identificazione dei record del database per collegare, aggiornare, consolidare o rimuovere i duplicati trovati.
“Ci viene sempre chiesto ‘qual è la migliore strategia di abbinamento da utilizzare?’ e diciamo sempre ai nostri clienti che non esiste una risposta giusta o sbagliata”, ha spiegato Sidor durante il live streaming. “Dipende davvero dal tuo business case. Potresti essere molto sciolto con le tue regole o puoi essere molto rigido.
CONTENUTO RELATIVO: Ottenimento del “Record d’oro” per la visione del cliente a 360 gradi
In una strategia libera, accetti il fatto che potresti rimuovere potenziali corrispondenze reali. Un’azienda potrebbe voler applicare una strategia flessibile se l’obiettivo finale è evitare di contattare due volte lo stesso cliente di fascia alta o individuare i clienti che hanno inviato le proprie informazioni due volte e le hanno leggermente modificate per evitare di essere contrassegnati come qualcuno che ha già risposto a un premio reclamo o concorsi a premi.
Le strategie di abbinamento per una strategia flessibile includono l’utilizzo di algoritmi fuzzy o la creazione di set di regole che utilizzano condizioni simultanee. Gli algoritmi fuzzy possono essere definiti come algoritmi di confronto di stringhe che determinano se i dati inesatti sono approssimativamente gli stessi in base a una soglia accettata. I confronti possono essere somiglianze uditive o somiglianze di stringhe e sono una combinazione di elementi pubblicati pubblicamente o di natura proprietaria. I set di regole con condizioni simultanee sono essenzialmente condizioni logiche OR, come la corrispondenza di nome e telefono O nome ed e-mail O nome e indirizzi.
“Ciò si tradurrà in un numero maggiore di record contrassegnati come duplicati e in un numero inferiore di record inviati al passaggio successivo del flusso di dati”, ha spiegato Sidor. “Lo fai sapendo che stai chiedendo al motore sottostante di svolgere più lavoro, di fare più confronti, quindi il rendimento complessivo del processo potrebbe essere più lento.”
L’altra alternativa è applicare una strategia rigorosa. Questo è l’ideale nelle situazioni in cui non vuoi falsi duplicati e non vuoi aggiornare erroneamente il record anagrafico con dati che appartengono a una persona diversa. Utilizzando una strategia serrata si ottengono meno partite, ma quelle partite saranno più precise, ha spiegato Sidor.
“Ogni volta che è necessario essere estremamente prudenti su come rimuovere i record è il momento di utilizzare una strategia di corrispondenza stretta”, ha affermato Sidor. Ad esempio, questa sarebbe la strategia da utilizzare quando si ha a che fare con i dati dei singoli conti di investimento o dei dati delle campagne politiche.
In una strategia ristretta probabilmente creeresti un’unica condizione rispetto alla strategia libera in cui puoi creare condizioni simultanee.
“Non vorrai raggruppare per indirizzo o abbinare per indirizzo, utilizzeresti qualcosa di più ristretto come nome, cognome e indirizzo, tutti richiesti”, ha detto Sidor. “Cambiare tutto ciò in nome, cognome, indirizzo e numero di telefono è ancora più rigoroso. “
Indipendentemente dalla strategia giusta per te, Sidor consiglia di sperimentare piccole modifiche incrementali prima di applicare la strategia all’intero database.
“Considerare se il processo è un processo di deduplica in tempo reale o un processo batch”, ha affermato Sidor. “Quando si esegue un processo batch, una volta raggruppati i record, il gioco è fatto. Non c’è davvero alcun modo di risolverli, poiché potrebbero esserci gruppi di otto o 38 record nel gruppo a causa di queste strategie avanzate e sciolte. Quindi probabilmente vorrai padroneggiare quella strategia prima di applicarla ai dati di produzione o a grandi insiemi di dati.”
Per saperne di più su questo argomento, puoi guardare episodio 5 dell’SD Times Live! Serie di microwebinar sulla verifica dei dati con Melissa.
[ad_2]
Source link