Estate 2020
Applicazioni - Case History & Inchieste
 

16/10/2012

Share    

Come Soluzioni per il Sistema Economico affronta i Big Data

Le considerazioni di Emanuele Schirru, responsabile ICT di Sose sul tema

 

 

L’esplosione dei dati digitali che caratterizza lo scenario ICT degli ultimi anni sta mettendo in crisi le attuali tecnologie per il trattamento delle informazioni a causa dell’incremento esponenziale delle dimensioni dei dati strutturati, non strutturati (blog, email, social network, dati da sensori) e multimediali (immagini, file audio e video).

 

Il patrimonio informativo delle aziende è cresciuto in pochi anni dai gigabyte ai terabyte e petabyte, e inoltre, secondo alcune stime, le aziende nei prossimi 10 anni dovranno trattare una massa di dati complessi 50 volte maggiore rispetto a quella attuale.
 

Sia le infrastrutture hardware, server e storage, sia il software (data base, applicazioni di business intelligence, sistemi di backup) hanno bisogno di nuove soluzioni come la virtualizzazione, la memorizzazione strutturata (structured storage) e i framework per il trattamento efficiente e parallelo di grandi masse di dati distribuiti, come per esempio Hadoop, MapReduce, Pig.

 

Per conoscere come si sta muovendo in questo innovativo e complesso settore un’azienda italiana specializzata nel trattamento di grandi volumi di dati, abbiamo intervistato Emanuele Schirru, responsabile ICT di Sose, Soluzioni per il Sistema Economico Spa, conosciuta come la società che realizza gli studi di settore per l’Agenzia delle Entrate, al fine di valutare la capacità delle imprese e dei professionisti, di produrre ricavi o conseguire compensi, definendo le specifiche tecnico-funzionali e sviluppando i prototipi, per la realizzazione del programma GeRiCo (Gestione Ricavi e Compensi), e inoltre gestisce una delle banche dati di importanza strategica nazionale.

 

Insomma stiamo parlando di una realtà che deve fare in conti quotidianamente con la tematica dei Big Data, e ci sembra quindi utile proporre oggi questa intervista in un momento in cui l’argomento sta diventando caldo anche per molte altre imprese del nostro Paese.

 

 

Da dove attingete i vostri dati?
 

 

I dati fiscali provengono prevalentemente dalla Agenzie delle Entrate, mentre altre fonti dati sono quelle Istat, Bureau Van Dijk, Prometeia, Ministero dell’Interno, Comuni, Province, etc... La dimensione della nostra banca dati decennale, compresi quelli raccolti e quelli elaborati è ormai vicina al petabyte, ovvero 1.000 terabyte.

 

 

Quali sono le opportunità e i benefici derivanti dall’utilizzo dei Big Data?
 

 

Poiché Sose si avvicina sempre più ai petabyte, abbiamo deciso di valutare e collaudare tecnologie dei maggiori fornitori al fine di soddisfare al meglio le nostre esigenze.
 

L’utilizzo dei Big Data risulta strategico al fine di fornire servizi sempre più adeguati ed efficienti, con l’opportunità di creare nuove basi dati non immaginate precedentemente.
 

Sicuramente per noi diventa importante gestire fonti dati eterogenee, e occorre superare i classici approcci per la realizzazione di modelli relazionali dei Dbms, in quanto i Big Data possono favorire una maggiore velocità di analisi e integrazione, con meno sforzi.

 

 

Come procedete per gestire e analizzare i dati destrutturati derivanti da fonti esterne?
 

 

Secondo me, occorre definire due principali fonti esterne: governate e non governate. Quelle governate sono sicuramente identificate e catalogate almeno secondo la loro tipologia; per esempio: testi normativi, circolari, sentenze… Di questi si conosce a priori l’argomento trattato.
 

Quelle non governate possono essere le informazioni recuperate da Internet come per esempio: le informazioni presenti sui social network, sui forum, sui blog che cambiano continuamente tipologia di argomento. In questo caso risulta più complesso individuare gli argomenti di interesse, con una frequenza elevata di aggiornamento nel tempo.

 

 

Fatta questa distinzione come si deve operare?
 

 

Nel primo caso, le fonti sono facilmente gestibili e possono essere integrate nelle banche dati; nel secondo caso, occorre dotarsi di strumenti che consentano un aggiornamento in real time delle informazioni e che siano in grado di catalogarli e creare delle relazioni con i dati preesistenti. Questi strumenti devono essere capaci di reperire le informazioni destrutturate presenti nella rete, in modo puntuale e sempre aggiornato, e di affinare al meglio la categorizzazione dei documenti ‘noti’.
 

Penso che l’uso di algoritmi costruiti sulla dinamica associativa possano sicuramente aiutare sia nella fase di indicizzazione dei dati che nella fase di analisi. Sono inoltre necessari strumenti che consentano una semplice navigazione del dato e componenti statistici preconfigurati nel sistema al fine di costruire delle dashboard in tempi brevi.

 

 

Quali sono le soluzioni infrastrutturali che abilitano la gestione dei Big Data?
 

 

Allo stato attuale sia il mercato che il mondo open source non offrono molto e quello che viene proposto non corrisponde ancora completamente ai desiderata, anche se i framework come Hadoop supportano applicazioni distribuite con elevato accesso ai dati e permettono alle applicazioni di lavorare con migliaia di nodi e petabyte di dati.
 

Nel campo dell’hardware vengono offerte numerose soluzioni sempre più performanti, anche se il costo attuale è ancora elevato. Sono molto interessanti le appliance che integrano prodotti per la gestione Big Data con performance ottimizzate.

 

 

Quali sono le criticità e i rischi connessi con l’utilizzo dei Big Data?
 

 

Siamo ancora indietro nell’analisi dei dati destrutturati e in particolare nell’analisi semantica dei testi italiani. Sono poche le società che hanno investito in ricerca e sviluppo di applicazioni in grado di eseguire sentiment analysis o link analysis, soprattutto in correlazione con i vari linguaggi utilizzati, come tecnico, giuridico, commerciale, etc.
 

Altra criticità sono i problemi di dimensione del dato, che richiedono spazi hardware sempre più grandi e capacità di lettura più veloce. È importante migliorare gli algoritmi di compressione del dato, visto che per effettuare le analisi non tutti i dati vengono utilizzati contemporaneamente. Poiché eseguiamo i backup su disco e su cassette, dobbiamo occupare circa 3 Petabyte di memoria fisica.

 

 

Avete in corso qualche progetto nell’area dei Big Data?
 

 

Nell’ambito degli Studi di Settore stiamo implementando delle tecnologie che consentono di creare relazioni matriciali tra dati strutturati (provenienti dai modelli compilati dai contribuenti) e dati non strutturati come testi normativi, circolari, sentenze o informazioni recuperate dalla rete, al fine di migliorare e affinare i servizi verso l’Amministrazione finanziaria ed eseguire una sentiment analysis dei contribuenti in rete.
 

Nell’ambito dell’analisi dei Fabbisogni Standard, raccogliamo le informazioni sull’assistenza tramite il nostro sistema CRM, le quali vengono analizzate e confrontate con dati strutturati al fine di rilevare eventuali anomalie e migliorare la qualità dei dati raccolti.

 

 

Utilizzate particolari metodologie?
 

 

Le metodologie per le analisi statistiche sono sviluppate internamente, con la consulenza dei maggiori esperti mondiali in materia. Per la gestione dei processi IT utilizziamo ITIL, mentre per la gestione dei dati (data governance) utilizziamo le metodologie proposte da Dama (Data Management International - www.dama.org), per quanto riguarda la qualità dei dati, stiamo collaborando per la definizione dell’ISO 25012.

 

 

Le principali attività di Sose

 

 

L’attività principale di Sose (Soluzioni per il Sistema Economico Spa) consiste nello sviluppo di 206 studi di settore, utilizzati per valutare la capacità delle imprese e dei professionisti di produrre ricavi o conseguire compensi, in relazione alla loro struttura organizzativa e all’ambiente economico in cui operano. Ogni studio di settore considera da 200 a 450 variabili su cui vengono eseguite analisi statistiche, economiche e fiscali elaborando i dati raccolti da una platea di oltre 4 milioni di contribuenti all’anno tra aziende e professionisti.
 

Si tratta di un identikit raffinato, frutto del legame tra i dati contenuti nella dichiarazione dei redditi con gli elementi strutturali, il mercato in cui si opera e, soprattutto l’analisi territoriale che acquisisce sempre maggiore rilievo nella comprensione dei fenomeni economico-sociali. Tutto questo è il risultato del lavoro di un gruppo che si confronta con le associazioni di categoria, gli intermediari fiscali, gli esperti di settore, gli Enti Governativi e i contribuenti stessi.
 

Il software GeRiCo (Gestione Ricavi e Compensi), distribuito dalla Agenzia delle Entrate, consente di elaborare la posizione del contribuente sulla base degli studi di settore, per calcolare la congruità, tenendo conto della normalità economica, e della coerenza economica secondo i dati dichiarati dalle aziende o dai professionisti.

 

Oltre agli studi di settore, Sose sta contribuendo alla realizzazione del nuovo redditometro attraverso l’analisi metodologica che accerti la reale capacità reddituale dei contribuenti. Inoltre, per l’attuazione del federalismo fiscale sta lavorando alla determinazione dei fabbisogni standard di comuni e province, elaborando i dati inseriti nei questionari costruiti per analizzare i servizi e le principali funzioni degli enti locali.
 

Sose ha al suo interno anche un’area che si occupa di prodotti per le imprese (strumenti di audit, trend e benchmark) che consentono di valutare i risultati della gestione economico-finanziaria dell’impresa, e di confrontarsi con imprese simili e nello stesso territorio, consentendo agli imprenditori di migliorare la propria organizzazione, determinare le migliori strategie commerciali relative ai prodotti, ai prezzi e alla clientela.

 

Sono prodotti che possono anche supportare attività di consulenza per lo start up di nuove imprese oltre a trasformazioni organizzative e commerciali di quelle esistenti. Infine tali prodotti sono integrabili in sistemi informativi a supporto di politiche di credito di banche e istituti di finanziamento.
 

“Sin dalla sua genesi, Sose ha deciso di investire sulla ‘squadra’, distinguendosi per l’alta professionalità delle proprie risorse, per l’accurata scelta delle infrastrutture metodologiche e per la selezione delle tecnologie più innovative sul mercato – dichiara Emanuele Schirru, responsabile ICT di Sose. Attualmente, combina un variegato mix di risorse con competenze metodologiche in ambito statistico, analisi microeconomica e aziendale, architetti di data warehousing e di business intelligence nonché di informatici con uno spiccato know how tecnologico”.
 

 

TORNA INDIETRO >>