Posts Tagged ‘big data’

Fog computing, l’archivio dell’Internet delle Cose

THETA Notes di petahopkins

Photo credits: THETA Notes di petahopkins, su Flickr

In questo blog mi sono occupato più volte di cloud computing: troppe infatti le ripercussioni sulle modalità di creazione, sedimentazione e conservazione degli archivi digitali (tanto di persona quanto di organizzazioni pubbliche e private) per non parlarne!
Proprio per questo motivo è il caso di presentare, a chi non ne avesse già sentito parlare, quella che potrebbe essere la nuova buzzword del mercato IT per i prossimi anni.
Mi sto riferendo al concetto di fog computing il quale, si badi, non ha al momento avuto implementazioni pratiche né alcuna definizione standard da parte di organizzazioni internazionali quali ad esempio il NISO.
Il fog computing infatti è un paradigma sviluppato, in analogia a quello di cloud computing, un paio d’anni fa da un gruppo di ricercatori di Cisco ma che è diventato oggetto di discussione da parte di un pubblico più amplio rispetto a quello degli addetti ai lavori solo in tempi recenti.
Ma cosa si intende, più precisamente, con fog computing? La stessa terminologia è di aiuto a comprendere per bene: se la nuvola (cloud) si staglia in alto nel cielo, la nebbia (fog) si colloca ad un livello intermedio tra questa e la Terra, anzi… assai aderente al suolo! Detto fuor di metafora il fog computing si prefigge di creare un’infrastruttura (con le canoniche risorse di calcolo, storage e rete) capace di rispondere in misura migliore rispetto alla Nuvola a quelle che saranno le probabili esigenze del prossimo futuro, futuro che sarà caratterizzato dall’exploit del cosiddetto Internet delle cose (in inglese Internet of Things o, più brevemente, IoT), ovvero dalla massiccia ed attiva presenza in Rete non solo di agenti umani ma anche di oggetti (e non solo quella serie di dispositivi indossabili tipici del wearable computing ma anche e soprattutto automobili, impianti semaforici, elettrodomestici, sensori vari sparsi per la città e lungo le vie di comunicazione con la funzione precisa di catturare dati relativi all’ambiente, alle condizioni del traffico, etc.).
Secondo gli esperti di Cisco, in altri termini, per far sì che l’IoT funzioni adeguatamente bisogna disporre di una infrastruttura ad hoc (la “nebbia”, per l’appunto) che sia complementare rispetto a quella fornita dalla cloud, ritenuta troppo centralizzata e “distante” (e di conseguenza con tempi di latenza troppo elevati rispetto a quelli richiesti allorquando in ballo ci sono i dati relativi, ad esempio, al traffico stradale ed il semaforo deve calcolare in frazioni di secondo, in base al numero di autovetture, bici e pedoni in procinto di attraversamento, come regolarlo nel modo più efficiente); le caratteristiche del fog computing sono dunque la bassa latenza, l’elevata distribuzione geografica, la connettività mobile (tramite punti di accesso Wi-Fi o reti LTE, ma in ogni caso con netta predominanza del wireless), la forte presenza di applicazioni in streaming o, ancora più probabile, in real time (come ben esemplificato dal caso del semaforo presentato poc’anzi).
Dal punto di vista fisico tutto ciò si traduce, come sempre, nella creazione di data center; come ricordato all’inizio la realizzazione di questi ultimi non è ancora stata avviata ma, considerando il requisito dell’elevata distribuzione geografica, verosimilmente essi saranno di dimensioni più contenute e più “agili”; in particolare le risorse di storage non saranno pensate per l’archiviazione di medio lungo periodo bensì per quella di breve e contraddistinte pertanto da alte prestazioni ed alti costi (non so quali soluzioni abbiano in mente quelli di Cisco, diciamo che trovo improbabile l’utilizzo di tape library!); i dati che necessitano di un più approfondito esame o semplicemente di una conservazione più lunga verranno invece avviati alla cloud dove, stipati assieme ai dati provenienti dalle altre fog geograficamente distribuite sulla superficie terrestre, andranno a creare la moltitudine di big data destinati ad un’analisi altrettanto “big” (big analytics).
Ciò che credo vada qui sottolineato è in primo luogo che il fog computing risponde all’esigenza, avvertita da più parti, di maggior “concretezza” e solidità rispetto al cloud computing (indicativo di questa tendenza, anche nel nome, il servizio Metal as a Service); in secondo luogo va rimarcato come i dati trattati dal nuovo modello proposto da Cisco, pur essendo provenienti dall’IoT, non sono per questo meno importanti e, soprattutto, sensibili rispetto a quelli che finiscono nella cloud per la conservazione di lungo periodo: infatti accanto ai dati relativi all’umidità relativa ed alla percentuale di polveri sottili nell’aria potrebbero pure figurare, man mano che l’e-health prenderà piede, quelli relativi al nostro livello di glucosio nel sangue trasmessi al nostro medico oppure quelli, più banali ma non meno invasivi, inviati dall’auto durante i nostri viaggi (georeferenziazione). La definizione di Internet delle cose è infatti per certi versi ingannevole; quest’ultima infatti non è solo smart city o smart grid o altri termini tanto accattivanti quanto vaghi; al contrario essa è, andando oltre agli slogan, composta di moltitudini di dati che riguardano le persone: finiscano essi nella nebbia o nella nuvola, vanno adeguatamente trattati.
Insomma, altro lavoro in vista non solo per i responsabili IT, per i sistemisti ed i data analyst ma anche per gli archivisti.

Per ulteriori materiali di approfondimento consiglio la lettura dello Storify appositamente realizzato.

Big data: opportunità e rischi

Linked Open Data Graph

Linked Open Data Graph di okfn, su Flickr


INTRO

Ormai quella di big data si avvia ad essere la buzzword per eccellenza del panorama tecnologico, e non solo, del 2012: alla moda, del resto, non si è sottratto neppure il sottoscritto (avendogli già dedicato un paio di post) ma qui ormai poco ci manca che l’argomento sia oggetto di discussioni al bar! Lo sdoganamento è avvenuto nel momento in cui si sono compresi gli enormi vantaggi ottenibili rendendo aperti e liberamente riutilizzabili non solo la mole di dati creati e/o raccolti dalle aziende (big data) e dalle pubbliche amministrazioni (in questo caso gli open data fanno, o meglio, dovrebbero fare da pendant con l’open government), ma anche dai singoli individui, i quali dovrebbero contribuire attivamente, attraverso le loro “segnalazioni”, ad arricchire (in termini di copertura geografica e di aggiornamento nel tempo) i dati a disposizione, il cui valore aggiunto, si badi, dipende soprattutto dalla possibilità di essere correlati tra di loro secondo modalità nemmeno lontanamente contemplate dal produttore originario (linked data). La disponibilità di dati aperti dovrebbe avere benefiche ricadute sull’economia, sulla ricerca scientifica, sulla società ed in ultima analisi sulla qualità della vita di tutti noi (non a caso ultimamente si fa un gran vociare sulla smart city anche se, lasciatemelo dire, non vedo così molti smart citizen in circolazione pronti ad abitarla!).
Cattiveria mia a parte, quella dei big data è una materia che oltre a grandi opportunità pone sfide non indifferenti in primis alla comunità archivistica: su quella più importante, riguardante il passaggio dal documento al dato, ho già scritto e anzi sia chiaro che i dubbi allora esposti permangono più che mai e fanno anzi da “cappello” a questo mio nuovo intervento nel quale, stimolato anche da due interessanti letture fatte in questi giorni, voglio invece affrontare due ulteriori aspetti, relativi rispettivamente alle misure di natura tecnica da prendere ed alla tutela della privacy.

GESTIONE E CONSERVAZIONE DEI BIG DATA: QUALI SOLUZIONI TECNICHE?

Nel corso di una breve quanto interessante intervista pubblicata su Data Center Knowledge (uno dei principali siti statunitensi di informazione sul tema dei data center; n.d.r.) ed incentrata sulle sfide poste, essenzialmente alle infrastrutture IT aziendali, dalla crescita esponenziale dei dati che occorre “maneggiare” e riutilizzare consapevolmente, John Burke, ricercatore di Nemertes, mette in evidenza come tre siano gli aspetti da tener maggiormente sotto controllo:
1) chi possiede i dati: raramente questi ultimi appartengono all’IT provider sicché è opportuno mettere in chiaro cosa e come gestirli (e, aggiungo, che fine far fare loro in caso di interruzione del rapporto di fornitura di servizi IT; il caso di Carpathia, che continua a mantenere a sue spese i dati di Megaupload “congelati” nei suoi server è emblematico). Insomma, un po’ a sfatare un mito che vuole il “depositante” come parte debole dell’accordo, emerge come entrambe le parti abbiano la convenienza che sia fatta preliminarmente massima chiarezza sui reciproci diritti e doveri e credo che, onde evitare complicazioni, questo valga anche nel caso di dati “liberi”
2) quali procedure di storage e/o archiviazione verranno utilizzate: il tema è cruciale e rimanda ad un’altra questione di non minor rilevanza, vale a dire il mutato life-cycle dei dati. Difatti fino a non molto tempo fa tale ciclo-vita aveva un andamento siffatto: a) alta frequenza d’uso (fase attiva) => b) graduale “raffreddamento” nel numero di istanze fino al c) completo inutilizzo dei dati (fase passiva), che venivano pertanto in genere cancellati e solo in determinati casi conservati permanentemente. Un simile life-cycle influiva inevitabilmente sull’infrastruttura IT predisposta: essa doveva infatti garantire elevate prestazioni nella fase attiva e prestazioni decrescenti nelle successive, motivo per cui si era soliti trovare rispettivamente nelle tre fasi sistemi RAID, dischi ottici e nastri. E’ interessante notare dunque come, paradossalmente, i dati “storici” risiedevano nelle soluzioni tecnologiche meno prestanti e meno costose e tendenzialmente più soggette a guasti e malfunzionamenti, con il conseguente pericolo di una loro perdita. Oggi il ciclo-vita sopra descritto sta scomparendo: assistiamo infatti ad un uso caratterizzato da meno picchi ma al contrario più costante e prolungato nel tempo e soprattutto con numeri di istanze mediamente più elevati (conseguenza degli usi e riusi “inaspettati” che si fanno dei dati) il che impone, specialmente in previsione dell’esplosione degli open data, di allocare questi ultimi in unità di storage generalmente più prestanti, capaci di collegarsi, una volta richiamati, con altri dataset sparsi per il mondo (interoperabilità) meglio ancora se secondo i dettami del cloud computing (indicativo di quest’ultimo trend il progetto europeo Open-DAI), in modo da poter riutilizzarli (anche) attraverso applicativi per dispositivi mobili
3) come trasportarli: questo punto riprende, per certi versi, i riferimenti appena fatti all’interoperabilità ed al cloud computing; occorre infatti che l’infrastruttura sia capace di “muovere” i dati in modo ottimale, senza intasare la WAN e soprattutto mantenendo inalterata la qualità del servizio.
Riassumendo, l’importanza crescente attribuita ai dati impone una rivisitazione delle architetture realizzative dei data center, cosa che, per chi come il sottoscritto ritiene che oggigiorno esista uno stretto nesso tra DC ed archivi, non può lasciarci indifferenti. Ma per questo rimando alle conclusioni.

OPEN DATA E TUTELA DELLA PRIVACY

Nelle battute finali di una non meno interessante, rispetto a quella citata in precedenza, intervista rilasciata a Silicon.de, Tim Berners-Lee, padre del world wide web e come già ricordato acceso sostenitore degli open linked data, non nasconde un loro grosso problema, ovvero che gran parte di essi è rappresentata da dati personali (vuoi perché conferiti volontariamente dai cittadini, vuoi perché raccolti dalla Pubblica Amministrazione) e ribadisce l’importanza che essi siano resi anonimi e che su di essi vigilino organismi indipendenti. Tali affermazioni naturalmente sono del tutto condivisibili anche se riguardo alla prima parte qualche perplessità mi rimane: ho infatti l’impressione che gli open data siano un po’ come i social network, nel senso che se si vuole sfruttarli appieno occorre rassegnarsi a cedere un po’ della propria privacy (è un po’ come se uno volesse essere su Facebook ma senza venir taggato e commentato da amici e conoscenti). Totalmente d’accordo invece sulla seconda parte, quella relativa alla presenza di organismi indipendenti, anche se qui non si può sottacere il recente caso italiano del Garante per la protezione dei dati personali: nonostante il parere contrario di quest’ultimo, il Governo, con D.L. 5/2012 (e sua conversione con L. 35/2012), ha abolito l’obbligo in capo alle aziende di redigere il Documento Programmatico della Sicurezza. Sorvolando sul merito della vicenda (il DPS a mio avviso per alcune realtà era sproporzionato, ma non ha senso toglierlo quando quasi in contemporanea si emanano le Linee Guida sul Disaster Recovery – le quali seppur con graduazioni in base alle dimensioni andrebbero fatte valere sia nel settore pubblico che nel privato – ed alle quali esso andava a mio avviso raccordato!), il punto è che salvo rari casi le varie autorità, organizzazioni, associazioni, etc. indipendenti lo sono sole di nome e quasi mai di fatto! Sono, in buona sostanza, sempre in balia o comunque influenzabili, una volta da parte dei Governi nazionali, un’altra delle multinazionali, tal’altra della lobby di turno, etc. Anche in questo caso dunque la possibilità di una effettiva tutela dei dati personali è più un’enunciazione di giusti principi che una concreta realtà. Quel che conta, in definitiva, è essere consapevoli del problema e fare i massimi sforzi per ovviarvi.

OUTRO

I dati, specie quando “grandi” ed aperti, rappresentano (se usati bene) sicuramente una grossa opportunità per migliorare il mondo in cui viviamo; il problema principale è, a mio avviso, riuscire a conciliare il giusto grado di apertura (openess) con la necessaria tutela della privacy; ciò passa anche attraverso la realizzazione di adeguate infrastrutture IT, le quali devono non solo garantire che dal punto di vista tecnico le varie richieste d’accesso ai dati avvengano in tempi rapidi, ma anche che questa velocità non vada a discapito da un lato delle misure di sicurezza poste a tutela dei dati (più o meno sensibili) presenti, dall’altro della loro (eventuale) conservazione nel lungo periodo.

La scomparsa del documento

News obsession word flow experiment #1

News obsession word flow experiment #1 di Samuel Huron, su Flickr

Il titolo di questo post potrebbe apparire ai più eccessivo, ma poiché a leggere in giro è tutto un fiorire di incontri, ricerche ed iniziative incentrate sui dati (declinati in vario modo: big data, open data o ancor meglio sui sistemi che li gestiscono, come CMS, ERP, CRM etc.) è lecito chiedersi che fine farà il nostro “caro vecchio documento”.
Posta nei termini di sfida “dato VS documento” sembra quasi di rispolverare l’annosa querelle tra archivisti (in particolare Elio Lodolini), difensori del documento collocato all’interno dell’archivio e portatore del più ampio ed incomparabilmente superiore “valore archivistico”, e documentaristi che, prendendo il documento nella sua singolarità, lo qualificavano in virtù del valore informativo in esso contenuto.
In effetti l’evoluzione tecnologica degli ultimi anni ha visto da un lato l’esplosione quantitativa delle “fonti” di produzione e dall’altro la loro parcellizzazione e tutto (avvento dell’Internet delle cose, nel quale non solo le persone ma anche gli oggetti – lavatrici, televisori, frigoriferi, etc. – sono connessi e trionfo del paradigma del cloud computing) lascia presupporre che questo fenomeno proseguirà spedito nei prossimi anni (alcuni stimano che il volume dei dati in Rete raddoppi ogni 18 mesi). La riprova che dall’informazione si sia scesi al livello sottostante del dato è evidente se si considera che oramai non si sente più parlare di information overload ma, per l’appunto, oggi ci si domanda come gestire (se possibile con un ritorno economico) questa mole sterminata di dati (big data); lo stesso Tim Berners-Lee, padre del world wide web, da lui creato spinto dalla frustrazione di non poter condividere agevolmente documenti (contenenti informazioni strutturate) con altri membri della comunità accademica, è ora un convinto sostenitore del passaggio al Web of Data, come si evince dalla visione di questo interessantissimo suo speech, in modo che potenzialmente tutti possano concorrere, a partire da dati grezzi, alla creazione di nuove informazioni, al raggiungimento di nuove scoperte scientifiche, etc.
In questa sede, come sempre, ci interessano in modo “laterale” i risvolti di business; decisamente più interessante invece approfondire come nella teoria muti, parallelamente all’imporsi del dato sul documento, la definizione di quest’ultimo. Utile a tal scopo riprendere il concetto di vista documentale presentato da Roberto Guarasci, che a sua volta si rifà al “Nuovo CAD” (D. Lgs. 235/2010); stando a questo autore è sempre più comune imbattersi in un documento come

vista, temporalmente identificata e descritta, di un processo di estrazione di dati [il grassetto è mio; n.d.r.] da repository che attesta e qualifica un evento o una transazione

e che costitutivamente sarebbe composta da 3 elementi principali: i log, le evidenze ed i metadati.
In questa definizione di documento, peraltro non confliggente con quella dinamica “as a continuum” alla InterPARES, ritroviamo tutti gli elementi principali finora individuati: i dati innanzitutto, ma anche i processi di conservazione / ricerca / estrazione ed uso a partire da “depositi” qualificati (con i metadati a fungere da imprescindibile corredo).
Le conseguenze archivistiche sono notevoli e meriterebbero di essere approfondite con ben altra ampiezza di respiro; così, su due piedi, impossibile non soffermarsi su alcuni aspetti.
1) Nel momento in cui il documento perde le sue caratteristiche di fissità (essendo l’esito di un processo dinamico di estrazione di dati che possono risiedere in repository geograficamente ed amministrativamente distinte) vengono meno anche le sue caratteristiche “esteriori”. Pertanto 2) risulta impossibile o perlomeno assai difficile effettuare una analisi di tipo diplomatistico per attestare, così come avviene ancora con il documento contemporaneo, la sua autenticità. 3) Al contrario è possibile garantire quest’ultima solo dimostrando l’avvenuta “ininterrotta custodia” dei luoghi fisici (server) nei quali vengono conservati i dati nonché l’adozione (e l’applicazione concreta!) di adeguate policy. Ritorna prepotentemente dunque 4) l’importanza di costruire infrastrutture informatiche adeguate a supportare la mole sterminata di dati che, c’è da scommetterci, la nostra società produrrà negli anni a venire.
Faccio rilevare, per concludere, che questi obiettivi non sono conseguibili agendo in modo rapsodico ma necessitano al contrario di un’attenta e consapevole analisi preliminare cui deve far seguito una sistematica fase “realizzativa” alla quale non sarebbe male che anche gli archivisti dessero il proprio contributo; purtroppo finora l’impressione è che l’approccio tenda soprattutto a tutelare e/o favorire i propri affari (dal marketing alla profilazione degli utenti) specie se si considera che anche in fatto di open data, ovvero quelli di provenienza pubblica, l’intento dichiarato è favorire la nascita di start-up (non che sia un reato, anzi!) senza dunque coinvolgere gli archivi, i quali a mio avviso potrebbero al contrario dare un buon contributo alla causa.