Big data: opportunità e rischi

18 Lug

Big data: opportunità e rischi

Posted luglio 18, 2012 by Simone Vettore in Uncategorized. Tagged: archivistica, big data, data life-cycle management, John Burke, linked data, open data, open government, privacy, smart city, Tim Berners-Lee. 2 commenti

Linked Open Data Graph di okfn, su Flickr

INTRO

Ormai quella di big data si avvia ad essere la buzzword per eccellenza del panorama tecnologico, e non solo, del 2012: alla moda, del resto, non si è sottratto neppure il sottoscritto (avendogli già dedicato un paio di post) ma qui ormai poco ci manca che l’argomento sia oggetto di discussioni al bar! Lo sdoganamento è avvenuto nel momento in cui si sono compresi gli enormi vantaggi ottenibili rendendo aperti e liberamente riutilizzabili non solo la mole di dati creati e/o raccolti dalle aziende (big data) e dalle pubbliche amministrazioni (in questo caso gli open data fanno, o meglio, dovrebbero fare da pendant con l’open government), ma anche dai singoli individui, i quali dovrebbero contribuire attivamente, attraverso le loro “segnalazioni”, ad arricchire (in termini di copertura geografica e di aggiornamento nel tempo) i dati a disposizione, il cui valore aggiunto, si badi, dipende soprattutto dalla possibilità di essere correlati tra di loro secondo modalità nemmeno lontanamente contemplate dal produttore originario (linked data). La disponibilità di dati aperti dovrebbe avere benefiche ricadute sull’economia, sulla ricerca scientifica, sulla società ed in ultima analisi sulla qualità della vita di tutti noi (non a caso ultimamente si fa un gran vociare sulla smart city anche se, lasciatemelo dire, non vedo così molti smart citizen in circolazione pronti ad abitarla!).
Cattiveria mia a parte, quella dei big data è una materia che oltre a grandi opportunità pone sfide non indifferenti in primis alla comunità archivistica: su quella più importante, riguardante il passaggio dal documento al dato, ho già scritto e anzi sia chiaro che i dubbi allora esposti permangono più che mai e fanno anzi da “cappello” a questo mio nuovo intervento nel quale, stimolato anche da due interessanti letture fatte in questi giorni, voglio invece affrontare due ulteriori aspetti, relativi rispettivamente alle misure di natura tecnica da prendere ed alla tutela della privacy.

GESTIONE E CONSERVAZIONE DEI BIG DATA: QUALI SOLUZIONI TECNICHE?

Nel corso di una breve quanto interessante intervista pubblicata su Data Center Knowledge (uno dei principali siti statunitensi di informazione sul tema dei data center; n.d.r.) ed incentrata sulle sfide poste, essenzialmente alle infrastrutture IT aziendali, dalla crescita esponenziale dei dati che occorre “maneggiare” e riutilizzare consapevolmente, John Burke, ricercatore di Nemertes, mette in evidenza come tre siano gli aspetti da tener maggiormente sotto controllo:
1) chi possiede i dati: raramente questi ultimi appartengono all’IT provider sicché è opportuno mettere in chiaro cosa e come gestirli (e, aggiungo, che fine far fare loro in caso di interruzione del rapporto di fornitura di servizi IT; il caso di Carpathia, che continua a mantenere a sue spese i dati di Megaupload “congelati” nei suoi server è emblematico). Insomma, un po’ a sfatare un mito che vuole il “depositante” come parte debole dell’accordo, emerge come entrambe le parti abbiano la convenienza che sia fatta preliminarmente massima chiarezza sui reciproci diritti e doveri e credo che, onde evitare complicazioni, questo valga anche nel caso di dati “liberi”
2) quali procedure di storage e/o archiviazione verranno utilizzate: il tema è cruciale e rimanda ad un’altra questione di non minor rilevanza, vale a dire il mutato life-cycle dei dati. Difatti fino a non molto tempo fa tale ciclo-vita aveva un andamento siffatto: a) alta frequenza d’uso (fase attiva) => b) graduale “raffreddamento” nel numero di istanze fino al c) completo inutilizzo dei dati (fase passiva), che venivano pertanto in genere cancellati e solo in determinati casi conservati permanentemente. Un simile life-cycle influiva inevitabilmente sull’infrastruttura IT predisposta: essa doveva infatti garantire elevate prestazioni nella fase attiva e prestazioni decrescenti nelle successive, motivo per cui si era soliti trovare rispettivamente nelle tre fasi sistemi RAID, dischi ottici e nastri. E’ interessante notare dunque come, paradossalmente, i dati “storici” risiedevano nelle soluzioni tecnologiche meno prestanti e meno costose e tendenzialmente più soggette a guasti e malfunzionamenti, con il conseguente pericolo di una loro perdita. Oggi il ciclo-vita sopra descritto sta scomparendo: assistiamo infatti ad un uso caratterizzato da meno picchi ma al contrario più costante e prolungato nel tempo e soprattutto con numeri di istanze mediamente più elevati (conseguenza degli usi e riusi “inaspettati” che si fanno dei dati) il che impone, specialmente in previsione dell’esplosione degli open data, di allocare questi ultimi in unità di storage generalmente più prestanti, capaci di collegarsi, una volta richiamati, con altri dataset sparsi per il mondo (interoperabilità) meglio ancora se secondo i dettami del cloud computing (indicativo di quest’ultimo trend il progetto europeo Open-DAI), in modo da poter riutilizzarli (anche) attraverso applicativi per dispositivi mobili
3) come trasportarli: questo punto riprende, per certi versi, i riferimenti appena fatti all’interoperabilità ed al cloud computing; occorre infatti che l’infrastruttura sia capace di “muovere” i dati in modo ottimale, senza intasare la WAN e soprattutto mantenendo inalterata la qualità del servizio.
Riassumendo, l’importanza crescente attribuita ai dati impone una rivisitazione delle architetture realizzative dei data center, cosa che, per chi come il sottoscritto ritiene che oggigiorno esista uno stretto nesso tra DC ed archivi, non può lasciarci indifferenti. Ma per questo rimando alle conclusioni.

OPEN DATA E TUTELA DELLA PRIVACY

Nelle battute finali di una non meno interessante, rispetto a quella citata in precedenza, intervista rilasciata a Silicon.de, Tim Berners-Lee, padre del world wide web e come già ricordato acceso sostenitore degli open linked data, non nasconde un loro grosso problema, ovvero che gran parte di essi è rappresentata da dati personali (vuoi perché conferiti volontariamente dai cittadini, vuoi perché raccolti dalla Pubblica Amministrazione) e ribadisce l’importanza che essi siano resi anonimi e che su di essi vigilino organismi indipendenti. Tali affermazioni naturalmente sono del tutto condivisibili anche se riguardo alla prima parte qualche perplessità mi rimane: ho infatti l’impressione che gli open data siano un po’ come i social network, nel senso che se si vuole sfruttarli appieno occorre rassegnarsi a cedere un po’ della propria privacy (è un po’ come se uno volesse essere su Facebook ma senza venir taggato e commentato da amici e conoscenti). Totalmente d’accordo invece sulla seconda parte, quella relativa alla presenza di organismi indipendenti, anche se qui non si può sottacere il recente caso italiano del Garante per la protezione dei dati personali: nonostante il parere contrario di quest’ultimo, il Governo, con D.L. 5/2012 (e sua conversione con L. 35/2012), ha abolito l’obbligo in capo alle aziende di redigere il Documento Programmatico della Sicurezza. Sorvolando sul merito della vicenda (il DPS a mio avviso per alcune realtà era sproporzionato, ma non ha senso toglierlo quando quasi in contemporanea si emanano le Linee Guida sul Disaster Recovery – le quali seppur con graduazioni in base alle dimensioni andrebbero fatte valere sia nel settore pubblico che nel privato – ed alle quali esso andava a mio avviso raccordato!), il punto è che salvo rari casi le varie autorità, organizzazioni, associazioni, etc. indipendenti lo sono sole di nome e quasi mai di fatto! Sono, in buona sostanza, sempre in balia o comunque influenzabili, una volta da parte dei Governi nazionali, un’altra delle multinazionali, tal’altra della lobby di turno, etc. Anche in questo caso dunque la possibilità di una effettiva tutela dei dati personali è più un’enunciazione di giusti principi che una concreta realtà. Quel che conta, in definitiva, è essere consapevoli del problema e fare i massimi sforzi per ovviarvi.

OUTRO

I dati, specie quando “grandi” ed aperti, rappresentano (se usati bene) sicuramente una grossa opportunità per migliorare il mondo in cui viviamo; il problema principale è, a mio avviso, riuscire a conciliare il giusto grado di apertura (openess) con la necessaria tutela della privacy; ciò passa anche attraverso la realizzazione di adeguate infrastrutture IT, le quali devono non solo garantire che dal punto di vista tecnico le varie richieste d’accesso ai dati avvengano in tempi rapidi, ma anche che questa velocità non vada a discapito da un lato delle misure di sicurezza poste a tutela dei dati (più o meno sensibili) presenti, dall’altro della loro (eventuale) conservazione nel lungo periodo.

2 responses to this post.

Posted by Con Glacier anche gli archivi storici vanno sulla nuvola « Memoria digitale on settembre 3, 2012 at 7:40 PM

[…] in fatto di big data => 3) riguardo a quest’argomento assai in voga io stesso in un post di qualche mese fa ho evidenziato come, alla luce degli usi e riusi inaspettati che si fanno (e si faranno sempre […]

Rispondi
Posted by Il data warehouse in archivi e biblioteche | Memoria digitale on Maggio 20, 2014 at 12:04 am

[…] volti a raccogliere le informazioni / i dati in essi contenuti. Se sulle implicazioni teoriche e tecnico-pratiche di questo fenomeno ho già scritto qualcosa in questo blog, senza però mai affrontare quelli che […]

Rispondi

Memoria digitale Tendenze e problemi in archivi e biblioteche (e tutto ciò che vi ruota attorno)