Dell EMC Forum
Datacenter
 

10/10/2017

Share    

di Paolo Morati

Questione di secondi

Superare il disaster recovery tradizionale con un approccio tecnologico che garantisca tempi di ripartenza molto ridotti, per supportare al meglio le transazioni di pagamento. È questo lo scopo del progetto ‘Active-Active’ realizzato da SIA.

ktsdesign – Fotolia.com

Ogni giorno tutti noi ci serviamo di servizi di pagamento. Che si tratti di carte di credito e di debito presentate alle casse dei negozi piuttosto che di acquisti effettuati direttamente online, sono di fatto miliardi i byte legati alle transazioni che quotidianamente viaggiano sulle infrastrutture di rete e i sistemi deputati alla loro gestione. Un mondo dove la raccolta e il trattamento di questi dati sta vivendo diverse rivoluzioni che, più nello specifico dei cosiddetti pagamenti digitali, dipendono da un insieme di fenomeni.

Fabio Grignani“Il contesto odierno vede registrare una crescita sempre più significativa dell’uso dei pagamenti digitali. E l’aumento di questi volumi non è destinato ad arrestarsi, per via di avvenimenti quali la diffusione sempre maggiore della moneta digitale – legata anche al cambio generazionale degli utenti e alle abitudini conseguenti – la crescita di nuovi canali di pagamento, come il mobile e i servizi di digital wallet, e l’affacciarsi di nuovi player estremamente innovativi e finanziariamente solidi che competono con quelli più tradizionali come le banche”, spiega Fabio Grignani, Senior Vice President e Chief Operating Officer di SIA, azienda leader a livello europeo nella progettazione, realizzazione e gestione di infrastrutture e servizi tecnologici in ambito pagamenti, monetica, servizi di rete e mercati dei capitali. Con oltre 2.800 clienti, per i quali lo scorso anno ha gestito oltre 55 miliardi di transazioni. “Ecco che in tale scenario ogni interruzione nell’erogazione delle piattaforme che gestiscono i servizi di pagamento impatterà con maggiore forza sul business delle aziende che se ne servono, generando danni rilevanti anche in caso di blocchi di pochi minuti, ad esempio in settori come la Gdo più tradizionale, le attività di e-commerce, e altri ancora”.


Tempi di ripristino
In genere, il contratto tra utente e fornitore di un servizio di pagamento include un parametro, il cosiddetto Rto (recovery time objective), che stabilisce il tempo massimo di interruzione, in caso di disastro, prima che avvenga il pieno ripristino operativo. “Nei casi più critici è prevista una finestra temporale massima di due ore, come ad esempio quella richiesta da Banca d’Italia per servizi tipo il Bancomat o dalla BCE per le infrastrutture di pagamento fondamentali per il sistema finanziario europeo. Noi però riteniamo che, considerata l’esplosione dei pagamenti digitali, detto livello di servizio non sia da considerarsi più accettabile, ancor più in un mondo destinato a basarsi sul cosiddetto ‘instant payment’, dove già un ritardo di risposta di qualche minuto diventa grave”, commenta Grignani.
Di fatto, l’idea per anni è stata quella che, per garantire il ripristino dei servizi nei tempi stabiliti, gli operatori del settore si dotassero di due infrastrutture di data center collegate tra loro.

La prima, il cosiddetto sito primario (o attivo) da dove erogare i servizi;

La seconda, il sito secondario (passivo, gemello del primo) dal quale far ripartire il tutto in caso di grave disservizio, nel giro delle due ore canoniche.

E con i due siti posti a una distanza geografica di decine di chilometri per questioni di sicurezza e per evitare che un eventuale disastro fisico potesse colpire entrambi. “Qualche anno fa abbiamo iniziato a valutare un’alternativa a questo approccio, ragionando sul futuro. Le percentuali ci dicono che gli ‘switch’ tra sito primario e secondario avvengono solo nel 5% dei casi per cause legate a disastri naturali, mentre nel restante 95% dipendono da ragioni tecnologiche, quindi guasti o errori operativi e di manutenzione. Ecco che quando si parla di pagamenti istantanei il disaster recovery tradizionale diventa insufficiente e tenere in priorità quegli eventi a bassa probabilità non risulta l’approccio più corretto. Nel 2013 abbiamo dunque cominciato a studiare una soluzione che lo superasse, ricercando anche un modo idoneo ad abbattere i tempi di ripartenza, passando dalle ore ai minuti e quindi ai secondi”, aggiunge Grignani.

SIA

Un motore che riparte

La strategia di SIA per l’abbattimento dell’Rto è partita da un primo ragionamento. Quando si ha un sito attivo e uno passivo, per poter effettuare il disaster recovery e riattivare i servizi bisogna avviare il sito secondario, che è fermo, richiedendo una serie di attività e procedure che generano latenza. Un po’ come quando accendiamo un motore che deve prima riscaldarsi e carburare per poi essere pienamente efficiente. Per risolvere tale problema la società ha quindi pensato di realizzare due siti attivi, entrambi sempre operativi e con le stesse identiche tecnologie, che erogassero i servizi in parallelo, aggiornando contemporaneamente i dati in tempo reale, e prevedendo procedure di switch automatizzate senza intervento umano.  “La prima fase del nostro progetto ha visto il coinvolgimento di un gruppo di fornitori tecnologici, a dire il vero inizialmente scettici, in quanto, essendo i nostri due data center distanti alcune decine di chilometri, era possibile che la latenza di rete innalzasse talmente i tempi di risposta sulle transazioni da non riuscire a soddisfare i livelli di servizio offerti ai clienti. Non ci siamo per questo arresi e abbiamo selezionato alcune soluzioni ritenute tra le migliori sul mercato e creato una serie di Poc (proof of concept), con la collaborazione dei rispettivi produttori. Risultato: una nuova piattaforma di rete che, nel complesso, oggi permette addirittura di quadruplicare le prestazioni rispetto al passato”, afferma Grignani.
Per capire più nel dettaglio, SIA si è resa conto che il vero collo di bottiglia per un approccio ‘active-active’ non è rappresentato dalla parte di calcolo, ma dai tempi di accesso alle unità di storage. La combinazione di una rete con velocità superiore, dischi più efficienti sul fronte dell’I/O e procedure automatizzate, nonché elaboratori più performanti, ha di fatto permesso di recuperare la perdita nei tempi di risposta dipendente dal passaggio su due siti operativi entrambi in tempo reale. “Quando una transazione viene registrata su un primo sito deve aspettare che il secondo risponda, allineando il tutto. Il tempo perso è stato recuperato grazie alla nuova infrastruttura, ma anche a una contestuale e profonda ottimizzazione delle applicazioni e dell’accesso alle basi dati, ottenendo dei risultati migliori rispetto al precedente approccio attivo- passivo. Nel 2015 siamo quindi andati in produzione ‘active-active’ abbassando l’Rto fino a pochi secondi, indirizzando la parte mainframe e i sistemi fault-tolerant, fondamentali per l’erogazione delle piattaforme di card processing di SIA.

La seconda fase
Una volta avviata la nuova infrastruttura, lo scorso anno SIA ha dato inizio alla fase due del progetto, questa volta pensata per i sistemi mission-critical ospitati anche sulla parte open. “Siamo partiti effettuando una selezione di quelli più interessanti per il business da migrare e alla fine di quest’anno rilasceremo in produzione le prime applicazioni anche su questo versante specifico. – spiega Grignani. Tra queste, ad esempio, c’è l’instant payment di EBA Clearing, uno dei nostri primi clienti ad aver richiesto espressamente di seguire tale approccio; confermando nei fatti che in un mondo sempre più digitalizzato, con pagamenti e volumi sempre maggiori, nell’ordine delle decine di migliaia di transazioni al secondo e in una logica 24 per 7, esso rappresenta un vantaggio tecnologico per chi si avvale dei servizi ma anche per noi stessi, a livello competitivo. Insomma, tra qualche anno diventerà lo standard di settore”.
E le ragioni che hanno reso possibile questo cambiamento per SIA sono tante, anche osservando la scelta infrastrutturale fatta in termini progettuali e implementativi: “L’active-active in realtà non è qualcosa di nuovo. Ma un conto è farlo in un campus con distanze di massimo cinque chilometri, e un terzo sito di disaster recovery a grande distanza; un conto farlo a livello geografico esteso, dove è indispensabile saper gestire una complessità elevata. Noi ci siamo riusciti, facendo emergere un ampio ventaglio di benefici semplificando le attività non strettamente legate alle grandi emergenze. Se guardiamo infatti alla manutenzione, questa avviene in continuità operativa senza mai fermare le macchine e quindi i servizi, eseguendo un rollback automatico e indolore se non funziona qualcosa. Inoltre siamo in grado di gestire i tanti test di disaster recovery, richiesti dagli accordi con i clienti così come dalle normative, in modo molto più rapido e meno oneroso rispetto al passato”, rivela Grignani.

Reazioni e azioni
Da quando ha lanciato la sua infrastruttura ‘active-active’ SIA ha registrato una serie di reazioni molto positive, anche se diverse a seconda delle geografie e delle tipologie di utenza. “Certamente esiste un mercato internazionale molto sensibile a questi argomenti, con il Nord Europa che attualmente lo è di più anche per via della particolare propensione agli investimenti in innovazione. I grandi clienti sono inoltre più interessati al tema rispetto a quelli piccoli. Ma in generale emerge grande soddisfazione, con la possibilità di applicare lo stesso concetto su più ambiti operativi e transazionali. Bisogna infatti tenere conto che le interruzioni di servizio sono critiche per tutte quelle realtà che stanno operando una trasformazione digitale dei propri modelli di business. Se guardiamo alle banche, il concetto di filiale si sta spostando online. O ancora, la Gdo opera ormai 24 ore su 24, e deve servire costantemente il cliente. E il manufacturing, che sta guardando all’Industry 4.0, è destinato ad arrivare al pagamento del componente in tempo reale”, sottolinea Grignani. In sostanza si tratta di un cambiamento tecnologico che va a impattare processi critici che poi possono anche modificare il concetto di user experience su più livelli e decretare o meno il successo di un servizio: “In generale si dice che ci vuole più tempo per spostare i brick che i byte. Ma se si verifica il contrario ecco che emerge un grosso problema… ed è quello che rischia di accadere se non si adeguano le infrastrutture per rispondere alle esigenze dei servizi presenti e futuri. Pena perdere opportunità e mercato”, conclude Grignani.

 

TORNA INDIETRO >>