Estate 2019
Sicurezza
 

16/07/2015

Share    

Tra contesti applicativi e standard

Mentre si affinano le tecniche di analisi, gli strumenti di computer vision vengono utilizzati in svariati settori per estrarre e costruire informazioni.

Sono diverse le applicazioni della computer vision sulle quali oggi si sta lavorando a livello mondiale e che toccano un ventaglio di ambiti oltre a quelli più noti della video sorveglianza legata in profondità all'individuazione di eventi. Partendo da quello automobilistico, esistono strumenti di gestione del traffico che sfruttano le telecamere installate per riprendere le strade e, quindi, analizzare percorsi e fenomeni in tempo reale per lanciare allarmi ed eventualmente modificare le segnaletiche elettroniche. Ad essi si affiancano quelli per il riconoscimento delle targhe utilizzabili sia quando si tratta di riprese stradali che all'interno di parcheggi e negli altri spazi dove le vetture possono eventualmente passare. Questo permette di sapere quali veicoli stanno entrando, registrandone con certezza la presenza o assenza. Lato utente finale, esistono poi sistemi installati a bordo delle autovetture per fornire assistenza ai guidatori, per esempio innescando i sistemi di controllo della frenata attiva che rilevano le distanza dalle altre vetture o quelli per la verifica dell'attenzione e della stanchezza tenendo sotto controllo gli occhi di chi si trova al volante.

 

Per sport, ma non solo

Un altro settore che ha visto già l’adozione di applicazioni di computer vision è quello sportivo con piattaforme che si occupano, per esempio, del tracciamento dei giocatori sul campo così come della palla per poi svolgere analisi in tempo reale e post partita sui comportamenti dei singoli e l'andamento generale degli incontri, o segnalare eventuali errori - l'entrata o meno della sfera in una porta da calcio oppure l'uscita della pallina da tennis fuori dal campo - nonché generare statistiche o arricchire i commenti sportivi con grafiche dinamiche da inserire direttamente in una trasmissione televisiva.
Fronte cinematografico, invece, la visione artificiale viene utilizzata per la costruzione di immagini tridimensionali attraverso il controllo degli oggetti o delle espressioni del viso e i movimenti degli attori per poi usare i dati raccolti, anche attraverso i sensori applicati, per la generazione delle controparti sintetiche che siamo abituati a vedere nelle produzioni basate su CGI (Computer Generated Imagery). E ancora, strumenti di elaborazione grafica vengono impiegati per l'inserimento di spot pubblicitari in determinate riprese televisive, armonizzati con l'immagine originale, mentre è ormai noto da anni l'utilizzo di device di ripresa e controllo per interagire con i videogiochi come se ci si trovasse direttamente nel mezzo dell’azione. Anzi, si può affermare che proprio tali periferiche e i software a esse associati abbiano aperto poi la strada ad applicazioni in ambito business.
Passando al comparto sanitario, è possibile utilizzare applicazioni basate sulla computer vision per l’identificazione e il posizionamento di strumenti chirurgici, ma anche per svolgere analisi a fini diagnostici rivelando anomalie nelle riprese degli organi interni o per condurre finanche attività di riabilitazione.
Nemmeno il manifatturiero è dal canto suo esente dal vento di queste tecnologie, con soluzioni dedicate all'ispezione degli impianti così come sistemi che verificano il colore dei prodotti alimentari, la loro forma e dimensione, e la qualità generale prima dell'immissione finale sul mercato. A tutto questo si aggiunge, poi, il campo della realtà aumentata veicolata attraverso i dispositivi mobili – quando ci si trova per strada inquadrando una scena si possono quindi ottenere informazioni e contorni aggiuntivi che completano quanto inquadrato – oppure in quello della moda per provare virtualmente abiti e accessori davanti a uno specchio speciale. Anche questa è, insomma, computer vision, seppure in certi casi potrebbe mancare la parte di intelligence approfondita a fini statistici o di raccolta di dati assumendo invece una carattere più prettamente informativo ed estetico.

 

Una materia oscura

Entrando nel dettaglio della tecnologia, di fatto, le applicazioni finora elencate partono dunque dai dati visuali, che sono una sorta di ‘materia oscura’ (come li hanno battezzati alcuni esperti) dalla quale fino a qualche anno fa era molto difficile estrarre informazioni a meno di non prevedere dei vincoli di contesto su aree e posizioni già ben delimitate. Come per esempio accade per le targhe automobilistiche che si trovano più o meno sempre nello stesso punto e angolo di ripresa.
Un oggetto che si muove in uno spazio generico scatena invece alcune problematiche relative a fenomeni quali la distorsione prospettica, la copertura parziale da parte di altri oggetti, un bilanciamento imprevedibile dei colori e un accentuato rumore di fondo. Tutto questo rende difficile un confronto con eventuali modelli di riferimento da utilizzare per una identificazione certa di quanto si sta vedendo. Si tratta di una materia oggi affrontata e risolta attraverso i cosiddetti ‘descrittori locali’ che abilitano una identificazione affidabile dell'immagine rilevandone i dettagli e tenendo conto punti di vista e condizioni di illuminazione differenti.
Grazie a questo approccio si può costruire una rappresentazione dell'immagine che viene filtrata in modo sempre maggiore fino a determinare dei punti chiave stabili che, facendo leva su minimi dettagli, portano poi alla generazione dei descrittori che appunto 'descrivono' quanto li circonda in modo estremamente preciso. A quel punto, affidandosi a test di consistenza geometrica, il sistema ha la certezza di quanto identificato anche se la corrispondenza dovesse risultare esatta solo per una porzione del totale. Oggi, di questa tecnica si occupa lo standard Mpeg denominato Compact Descriptors for Visual Search (Cdvs) che – illustrato da Gianluca Francini, responsabile Joint Open Lab VISIBLE di Telecom Italia nel corso dell’evento Video Intelligence Conference organizzato a Milano da Soiel International – definisce una modalità finalizzata all’estrazione, compressione e decompressione delle informazioni visive ritenute rilevanti, risolvendo quindi anche i problemi di spazio legati alla trasmissione dei dati dei descrittori verso server di elaborazione o alla memorizzazione in un database locale presente sul device.

 

La strada del deep learning

La ricerca visuale punta inoltre all’identificazione e classificazione certa di soggetti singoli all'interno di immagini, in questa fase affrontato attraverso le tecniche di deep learning, basate sulle reti neurali, ideate per offrire un modello matematico in grado di spiegare il funzionamento del cervello. Oggi è possibile realizzarne di molto complesse grazie all’introduzione di calcolatori estremamente potenti che utilizzano le GPU (graphic processing unit) nate per le schede grafiche e che si adattano molto bene ai calcoli necessari al raggiungimento dell'obiettivo. In breve, una rete neurale osserva l’ambiente circostante raccogliendo informazioni e apprendendo di conseguenza per essere in grado di identificare con certezza quanto poi verrà percepito in futuro. Il deep learning si basa in particolare su una rete neurale multilivello e trova applicazioni in vari ambiti, da quello finanziario ai sistemi di riconoscimento vocale, fino appunto alla ricerca visuale e alla individuazione delle forme, che si tratti di soggetti animati o inanimati. Da questo punto di vista rispetto solo a qualche anno fa la percentuale di errore si è abbassata enormemente aprendo la strada a nuove applicazioni e affinando i risultati restituiti. Ciò che solo qualche anno fa sembrava irraggiungibile oggi è quindi realtà.

 

TORNA INDIETRO >>