OLMeet Roma 2019
Applicazioni
 

25/07/2012

Share    

Qualità dei dati e Big Data: stessi principi, nuova tattica

Il fenomeno Big Data obbliga a rivisitare alcuni degli approcci e delle prassi esistenti

 

 

 

 

 

I Big Data obbligano a rivisitare alcuni degli approcci e delle prassi esistenti

 

 

 

 Dal numero maggio giugno 2012 di Executive.IT Dal numero maggio giugno 2012 di Executive.IT

 

 

Roxane Edjlali*, Ted Friedman**

 

 

L’argomento Big Data ha acceso il dibattito. Se da un lato i fornitori stanno promuovendo  le loro nuove offerte, le aziende utenti stanno invece cercando di capire opportunità e impatti che i Big Data possono portare alla realtà aziendale. In questo contesto quindi, ci sembra opportuno proporre ai lettori un ‘intervento di analisti Gartner già apparso sull’ultimo numero di Executive.IT.

 

 

Come per altre iniziative di miglioramento della qualità dei dati, la gestione della qualità nel contesto Big Data deve essere di competenza dell’azienda e gestita in funzione delle situazioni e delle esigenze. Non tutti gli utilizzi presuppongono lo stesso livello di qualità: l’analisi del clickstream e il rilevamento delle intrusioni, ad esempio, sono attività che richiedono livelli di precisione differenti.


Il fenomeno dei Big Data parte dalla quantificazione di un volume di dati molto estesi, ma oltre all’aspetto del volume include fattori di velocità, varietà e complessità (vedi la figura). Ognuna delle dimensioni di gestione dei Big Data influisce sulla percezione e sulla gestione della qualità intesa in senso tradizionale. In questo documento si è scelto di esaminare soprattutto le implicazioni del volume sul concetto di qualità dei dati, tralasciando in questa sede di approfondire gli aspetti legati a varietà, velocità e complessità.

 

 

Le nuove fonti

 


Siamo all’inizio di una nuova era in cui i dati che rientrano nello spettro delle risorse informative aziendali comprendono nuove fonti di informazioni: per esempio i media sociali, i dati sui clickstream e i dati di provenienza esterna come quelli forniti da Dun & Bradstreet. Questo impone un ripensamento del concetto di qualità dei dati e un suo adattamento alla realtà delle nuove fonti di informazioni.


I criteri tradizionali per la valutazione qualitativa dei dati si fondavano su un approccio granulare alla qualità, che richiedeva un intervento manuale per la gestione puntuale delle eccezioni, da applicarsi all’occorrenza fino al livello dei record.

 

 

In quest’ottica tradizionale, molte aziende indicherebbero i fattori seguenti tra le dimensioni essenziali della qualità dei dati: completezza (identificazione degli elementi di dati che sono necessari); freschezza (i dati forniti devono essere ragionevolmente recenti); accuratezza (i dati devono rispettare determinate regole di precisione); aderenza a una lingua comune (gli elementi dei dati devono soddisfare i requisiti ed essere espressi in un linguaggio comprensibile per gli utenti aziendali); coerenza (i dati provenienti da più sistemi devono rispettare determinate regole di coerenza; conformità tecnica (i dati devono rispettare le specifiche e le linee guida stabilite per l’architettura delle informazioni).


Tuttavia è importante che le aziende, prima di includere fonti di grandi quantità di dati nella propria infrastruttura informativa, definiscano i criteri di qualità da applicare nel contesto dei Big Data. A questo riguardo, i precedenti approcci tradizionali alla qualità dei dati presentano alcune limitazioni. Rispetto ai dati che vengono acquisiti manualmente, l’acquisizione automatica di grandi volumi di informazioni non richiede la stessa granularità per le regole di convalida dei dati.

 

In questo caso, ad esempio, non è necessario convalidare i dati per verificare i potenziali errori commessi dagli utenti nella loro raccolta. Viceversa, il controllo sulla qualità dovrebbe cercare alcuni tipi di eccezioni che siano indicative della validità del processo di raccolta. Nel caso dei contatori, il controllo di qualità dovrebbe concentrarsi sulla rilevazione dei dati mancanti (indicanti che il dispositivo è fuori servizio) o dei dati fuori linea (indicanti una situazione anomala o un problema del dispositivo).

 

I dati sono molto più dettagliati (si pensi ai dati relativi ai clickstream o ai dati dei contatori). Ciò significa che non sempre è necessario controllare la validità di ogni singolo valore. Nel contesto dei Big Data, non è richiesta la convalida individuale di ogni elemento, perché i dati vengono considerati come un insieme e non come una raccolta di record separati. La gestione della qualità dei dati a livello di record non sarebbe possibile in considerazione del volume delle informazioni. Occorrono nuovi approcci alla qualità dei dati che vanno scelti in funzione del caso d’uso.


I dati non sono di proprietà dell’azienda. Ad esempio, non lo sono i dati provenienti dai social media che vengono utilizzati per l’analisi delle opinioni, e può rivelarsi estremamente difficile definire regole di convalida appropriate considerando la mancanza di controllo su dove, quando e da chi siano prodotte le informazioni. I dati dei siti di social networking vengono raccolti senza tener conto del caso d’uso e senza particolari controlli. Questo rende ancora più difficile definire la validità, la deperibilità e la fedeltà delle informazioni.


Poiché i dati sono di natura molto eterogenea, i criteri di qualità tradizionali devono essere rivisitati tenendo conto delle peculiarità dei Big Data. Ciò significa che le dimensioni di completezza, freschezza, accuratezza e coerenza dovranno essere adattate al contesto Big Data. Alcune ricerche empiriche condotte presso i clienti hanno portato Gartner a formulare le seguenti strategie per la gestione della qualità dei dati nel nuovo contesto caratterizzato dall’esplosione delle informazioni.

 

 

La qualità sia “sufficientemente buona”

 


Le aziende devono adattare la qualità dei dati al loro utilizzo specifico, considerando i dati nel loro insieme e non a livello di singoli record. I criteri di completezza, accuratezza, coerenza e freschezza devono essere considerati per l’intero set di dati e in funzione del caso d’uso. Ad esempio, nell’analisi del clickstream, l’obiettivo è quello di ottimizzare la fidelizzazione e capire in quale punto gli utenti abbandonino la navigazione. È molto meno importante verificare accuratamente la qualità dei dati degli utenti. Tuttavia, può essere ugualmente necessario eliminare una parte dei disturbi – che in questo caso possono essere rappresentati dalle interazioni tra i crawler (o spider) o altri programmi automatizzati e il sito – per mantenere solo le interazioni autentiche degli utenti (vedi parte evidenziata qui sotto). I crawler hanno modelli di utilizzo molto diversi da quelli degli utenti reali, perciò i dati con la loro “firma” possono essere individuati e rimossi con relativa semplicità.

 

 

I crawler (anche detti spider o robot) sono applicazioni software che eseguono attività automatizzate sui siti web. In genere, i crawler eseguono operazioni semplici e strutturalmente ripetitive a una velocità molto superiore a quella raggiungibile da un operatore umano.

 

 

All’estremità opposta dello spettro, la rilevazione delle frodi richiede un’analisi più sottile della qualità dei dati. In questo caso non è sufficiente dividere gli utenti in due categorie, vale a dire quella degli utenti reali e quella dei crawler o di altre applicazioni che accedono automaticamente ai siti web. L’analisi deve permettere di identificare gli utenti che condividano lo stesso account, gli spider che cerchino di violare gli account degli utenti o le transazioni anomale. In questo frangente, la convalida dei dati è molto più importante e richiede una granularità molto superiore.

 

Negli esempi appena descritti, si nota in maniera evidente che l’accuratezza dei dati può avere due significati diversi, a seconda della situazione di utilizzo. Un altro attributo rilevante per i Big Data è la deperibilità delle informazioni. I set di dati possono essere altamente deperibili ed essere sostituiti da dati completamente nuovi con frequenza giornaliera o ancora più ravvicinata.

 

L’analisi dei tweet, ad esempio, tende a considerare solo i tweet riguardanti un certo argomento a partire da alcune ore dopo il verificarsi di un evento; i log dei siti web sono spesso significativi per una sola giornata; i dati di geolocazione usati dagli utenti dei dispositivi mobili sono validi solo per un breve arco di tempo. In tutti questi casi, è importante stabilire con precisione il tipo di controllo di qualità che è opportuno eseguire sui dati deperibili. In particolare, si tratta di decidere se i dati possano essere semplicemente utilizzati nella forma originaria, senza alcun trattamento.

 

Per concludere, le aziende che vogliano gestire la qualità dei dati nel contesto dei Big Data non dovranno eccedere nelle verifiche, ma piuttosto identificare i dati che possiedano una qualità “sufficientemente buona” per il caso d’uso in oggetto.

 

 

La valutazione del livello di qualità necessario

 


Gli approcci tradizionali alla gestione della qualità dei dati non sono applicabili ai volumi di informazioni che caratterizzano i progetti basati sui Big Data. Ad esempio, l’esecuzione di un processo di profilazione su un intero set di dati può rivelarsi molto lunga e dispendiosa in termini di risorse.

 

È importante quindi che le aziende diventino molto più efficienti nel limitare l’ambito dei dati su cui eseguire i controlli di qualità. Sono disponibili varie tecniche per ridurre la portata dei controlli di qualità sui dati; ad esempio, è possibile identificare solo gli attributi di interesse, oppure identificare le correlazioni esistenti tra gli oggetti e prenderne in esame solo una. A volte, perfino la riduzione degli attributi da considerare non è sufficientemente restrittiva, ed è preferibile gestire la qualità dei dati a un livello più grossolano.

 

Per identificare i dati a un livello di dettaglio inferiore è possibile, ad esempio, prendere in esame solo i campi e i valori che compaiono più frequentemente nella curva a campana, oppure individuare le relazioni tra due oggetti separati osservando le correlazioni reciproche e restringere l’analisi a una sola di queste (ad esempio, un solo elemento per famiglia). Queste tecniche permettono di ridurre sensibilmente i dati da esaminare (un’azienda ha riferito di avere ottenuto una riduzione di 1:1 milione).


Negli esempi citati, il tipo di verifica da eseguire sui dati dipende dalla situazione. Questo approccio può essere paragonato all’uso di una serie di imbuti per filtrare la validità dei dati secondo i criteri associati al caso d’uso specifico.

 

L’adozione di questo approccio elimina i problemi di riutilizzo e di coerenza che possono emergere nell’utilizzo di uno stesso set di dati per casi d’uso differenti. Tornando all’esempio del clickstream, il modo in cui un utente “reale” viene definito nel contesto dell’analisi del clickstream non corrisponde necessariamente a un “utente reale” nel contesto della rilevazione delle frodi, anche se i due casi d’uso utilizzano gli stessi dati.

 

I criteri selezionati per qualificare l’idoneità dei dati per un determinato caso d’uso portano infatti a una semantica differente. Ciò significa che la possibilità di adattare il set di dati risultante per un uso in un contesto più allargato riveste un’importanza secondaria e non è sempre praticabile.

 

Quando si memorizza la vista aggregata dei dati, la gestione della qualità a livello di singoli casi d’uso può portare a un lavoro ridondante e a una semantica incoerente, e perfino a dati disomogenei o ridondanti. Come per i progetti periodici di miglioramento della qualità dei dati, è importante trovare il giusto equilibrio tra l’idoneità dei dati al caso d’uso, la possibilità di riutilizzo delle informazioni e la coerenza dei dati.

 

 

Identificare e correggere i problemi di qualità

 


La prassi di utilizzare ed elaborare dati di provenienza esterna è piuttosto abituale per le aziende. Si pensi alla ricezione e alla conversione dei dati delle transazioni di interscambio elettroniche con i partner commerciali nell’ambito delle normali operazioni della supply chain, oppure all’aggregazione dei dati dei punti vendita per l’analisi delle preferenze dei consumatori e dei modelli d’acquisto.

 

Nei casi in cui il flusso dei dati utilizzati nei principali processi aziendali inizia (ed eventualmente anche finisce) al di fuori del controllo dell’azienda, è particolarmente importante istituire forme di controllo di qualità che permettano di misurare, convalidare e assicurare la conformità alle aspettative in termini di sintassi, semantica e idoneità allo scopo di utilizzo delle informazioni. Diversamente, si può rischiare di danneggiare le operazioni interne (o le operazioni dei partner a valle) a causa di difetti nella qualità dei dati. Fortunatamente, le aziende sono in grado di creare i controlli necessari perché i dati in oggetto hanno una natura ben nota e le aspettative di qualità sono in genere ben definite.

 

Il fenomeno dei Big Data cambia nettamente la prospettiva. Molte delle nuove fonti di dati che appaiono più promettenti, soprattutto per scopi analitici, comportano anche numerose problematiche, proprio perché spesso la loro struttura e il loro significato non sono sufficientemente noti e le aspettative sulla loro qualità non sono definite in modo chiaro. La “fedeltà” di questi dati per il loro utilizzo in un contesto nuovo e differente può essere del tutto ignota. Ad esempio, esiste un crescente interesse per l’utilizzo dei dati provenienti dai social media (social network e siti analoghi) per eseguire un’analisi più approfondita del modo in cui i consumatori percepiscono i prodotti e i servizi.

 

Tuttavia, data la natura aperta degli ambienti di provenienza, la creazione di questi dati è molto poco governata, perciò la loro accuratezza è altamente dubbia. La forza di queste enormi quantità di informazioni può essere sostanzialmente indebolita, se non completamente azzerata, dai problemi di qualità, e tuttavia non sempre le aziende che attingono a questi dati sono consapevoli di questa possibile degradazione. È essenziale che gli utilizzatori di queste immense fonti di dati sviluppino tecniche di verifica adatte, magari correlando queste informazioni a dati già esistenti di cui si conosce l’accuratezza (ad esempio, ai dati sugli acquisti precedenti di prodotti e servizi simili). Prima di utilizzare i dati per il caso d’uso in oggetto, è necessario acquisire un certo grado di fiducia nella loro attendibilità.

 

 

Il coinvolgimento dell’azienda

 


Come in tutte le iniziative finalizzate alla qualità dei dati, il coinvolgimento dell’azienda e l’allineamento con la strategia aziendale rimangono criteri essenziali per il successo.


Il fenomeno dei Big Data rende ancora più importante allineare le iniziative di governance a sostegno della strategia aziendale. Sotto molti profili, le best practice per la corretta implementazione della qualità dei dati rimangono valide anche nel contesto dei Big Data. Rimangono invariate le esigenze di sostegno e coinvolgimento da parte dell’azienda, alle quali si aggiunge la necessità di nuovi ruoli come quello del Data Scientist (vedi parte evidenziata qui sotto).

 

 

I Data Scientist svolgono attività di mining, modellazione, interpretazione, fusione ed estrazione delle informazioni a partire da grandi insiemi di dati (Big Data) e, su questa base, presentano risultati utili a persone non esperte nell'analisi dei dati. Queste figure uniscono le competenze di semantica su base matematica, appartenenti alla sfera dell'informatica, alla conoscenza delle caratteristiche fisiche dei sistemi digitali.

 

 

I Data Scientist uniscono le competenze di semantica su base matematica, appartenenti alla sfera dell’informatica, alla conoscenza delle caratteristiche fisiche dei sistemi digitali. Queste figure dovrebbero essere affiancate agli esperti di settore (i Data Steward) per favorire una più efficace individuazione delle relazioni all’interno dei dati. Ad esempio, lo studio del valore dei vari attributi mediante l’analisi della frequenza di accesso, la rilevazione dei dati fuori linea o l’individuazione delle correlazioni tra gli attributi possono costituire un buon punto di partenza per comprendere la distribuzione dei dati. Come nelle iniziative tradizionali di gestione della qualità dei dati, i Data Steward continueranno a fungere da referenti per i dati, a monitorare le loro variazioni improvvise e, eventualmente in collaborazione con i Data Scientist, a eseguire l’analisi delle cause delle anomalie. Se ad esempio i Data Steward osservano in un sito web una diminuzione improvvisa delle interazioni degli utenti che non sia giustificata da motivazioni aziendali, questo può indicare un problema nella strumentazione dei log delle operazioni sul Web.

 

 

L’analisi della qualità è un processo lungo

 


L’analisi degli aspetti qualitativi di grandi volumi di dati può sembrare un’impresa molto ardua. Alcune aziende che hanno implementato iniziative di gestione della qualità su volumi imponenti di dati hanno riferito che, in una prima fase, il monitoraggio dei dati e l’identificazione dei valori fuori linea con l’uso di semplici metodi statistici possono essere utili nel definire la base di riferimento su cui calibrare le aspettative. Utilizzando questa base di riferimento come punto di partenza, è possibile affinare successivamente l’analisi con l’aggiunta di ulteriori criteri (come la stagionalità) nell’ambito dei modelli. Anche in questo caso, come per le iniziative tradizionali, la qualità dei dati deve essere considerata in termini di programma e non di progetto e, per progredire, richiede la partecipazione congiunta sia del reparto IT che delle funzioni aziendali.

 

 

*Research Director Gartner
**Research Vice President Gartner

 

 

TORNA INDIETRO >>