Posts Tagged ‘open data’

Internet ed instabilità tipografica

Does the Internet make you smarter?

Does the Internet make you smarter? (Illustration for the Wall Street Journal) by Charis Tsevis, on Flickr

In un lunghissimo articolo apparso qualche settimana fa sul The New Yorker a firma di Jill Lepore vengono toccati moltissimi di quei temi da anni al centro del dibattito della comunità archivistica: dall’opportunità di “archiviare Internet” dandogli la necessaria profondità storica al ruolo svolto in questa direzione da organizzazioni non governative come Internet Archive con la sua Wayback Machine (il cui funzionamento però, fa notare l’autrice, ha ben poco di archivistico essendo le varie “istantanee” del web salvate da quest’ultima organizzate semplicemente per URL e per data!) passando per il crescente impegno profuso in questo settore da parte di istituzioni pubbliche (come la British Library o la National Library of Sweden, le quali portano avanti una tradizione tutta europea che affonda le sue radici nell’istituto del deposito legale) per finire con le implicazione derivanti dal fenomeno dei link rot, vale a dire di quei collegamenti ipertestuali non funzionanti che impediscono ai documenti presenti sul web di ricoprire una funzione all’interno del sistema di note e riferimenti analoga a quella ricoperta dai corrispettivi cartacei.
Proprio circa quest’ultimo punto, sul quale peraltro già avevo scritto qualcosa oramai qualche anno fa, vale la pena di sviluppare un paio di ulteriori riflessioni; partiamo dalle parole dell’autrice, la quale a riguardo scrive:

The footnote, a landmark in the history of civilization, took centuries to invent and to spread. It has taken mere years nearly to destroy. A footnote used to say, “Here is how I know this and where I found it”. A footnote that’s a link says, “Here is what I used to know and where I once found it, but chances are it’s not there anymore”

La teoria che soggiace ad una simile impostazione è quella, oramai classica, di Elisabeth Eisenstein e della “stabilità tipografica”: secondo questa autrice l’invenzione della stampa a caratteri mobili non fu un fatto meramente tecnologico ma ebbe profonde ricadute industriali e sociali al punto da segnare lo sviluppo successivo dell’Occidente, contribuendo ad assicurarne nel lungo periodo il predominio globale; in particolare la stampa in tirature sempre più elevate unitamente alla “standardizzazione” dell’oggetto libro, con l’affermazione di aree ben definite ed individuabili (frontespizio, colophon e soprattutto apparato critico / notazionale), da una parte rese possibile una migliore e più efficace circolazione delle idee (non più soggette a quelle storpiature imputabili ad errori più o meno involontari da parte del copista) dall’altra, grazie alla possibilità data dalla presenza di precisi riferimenti bibliografici e documentali di verificare ed eventualmente confutare o correggere le diverse tesi dibattute, pose le basi per lo sviluppo della scienza e della cultura occidentali.
Come ricorda Jill Lepore nel passaggio poc’anzi citato, tale secolare sistema è stato brutalmente messo in crisi all’avvento del digitale: com’è stato possibile ciò? quali le cause?
Personalmente ritengo che additare come colpevoli i soli link rot sia semplicistico; questi ultimi sono a mio modo di vedere parte di un problema ben più complesso che anzi li trascende: è la società contemporanea nel suo complesso, bulimica di informazioni sempre aggiornate, che ci porta a “bruciarle” dopo pochi minuti, che ci spinge ad avere prodotti editoriali digitali redatti in più versioni nel tempo (versioning) e capaci di aggiornarsi spesso e volentieri senza che venga mantenuta traccia della versione precedente (il che, piccolo inciso, porta al tramonto del concetto di edizione), che richiede che gli innumerevoli articoli e post pubblicati vengano tumultuosamente “updated” ed altrettanto repentinamente spostati oppure messi offline una volta che perdono di attualità, senza che vi sia il tempo necessario per una stratificazione delle idee.

In questo senso Internet ed il Web costituiscono, nell’accezione massmediatica e filologica del termine, il palinsesto perfetto: tutto è spostabile, tutto è cancellabile, tutto è (digitalmente) “sovrascrivibile”. Questo richiamo alla prassi medievale di raschiare e cancellare i codici, pergamenacei e non, rappresenta peraltro simbolicamente il tramonto dell’epoca di “stabilità” delineata dalla Eisenstein ed il ritorno, per contro, ad una che, parafrasando, possiamo definire di “instabilità tipografica”. Dando ciò per assodato, la domanda da porsi è a questo punto la seguente: i rischi paventati da Jill Lepore sono concreti?

La risposta, con tutta evidenza, non può che essere affermativa: come già ricordato è il metodo scientifico stesso che prevede, tra gli altri, il requisito della verificabilità e quest’ultima non può prescindere, a sua volta, dalla presenza di una fitta rete di rimandi e riferimenti. Venendo questi meno, la ricerca non può dirsi tale anche se ciò non significa automaticamente che non vi saranno alcuni benefici. Ad esempio lo “sganciamento” da auctoritas citate più o meno acriticamente potrebbe portare a percorrere nuove vie; parallelamente la mole crescente di dati prodotti (big data), per di più spesso e volentieri disponibili liberamente ed in formati aperti (open data), pertanto con la possibilità di trattarli ed incrociarli / collegarli (LOD) per mezzo di elaboratori, apre il campo a nuove frontiere nelle ricerche (in ambito storico perché non pensare, ad esempio, ad una nuova storia quantitativa?).

In definitiva quel che avremo non sarà altro che, com’è forse giusto che sia, una ricerca rispecchiante la società (digitale) che l’ha prodotta; in quest’ottica è doveroso che le istituzioni deputate alla conservazione, archivi e biblioteche, aumentino i propri sforzi.
Sicuramente un primo ambito d’intervento dev’essere, sulla falsariga di quanto fatto da Internet Archive e da molte biblioteche centrali, quello teso a dare profondità storica ad Internet “archiviandolo” ma anche contribuendo alla diffusione di persistent URL. Ma un secondo, ed in prospettiva persino più importante, terreno d’azione sarà inevitabilmente quello della gestione e conservazione dei big data, fenomeno che a mio avviso caratterizzerà gli anni a venire: è pertanto impensabile che gli archivi e le biblioteche non giochino un ruolo cruciale nel “mantenimento” tout-court dei vari dataset che, più dei singoli documenti, saranno alla base delle ricerche dei prossimi anni e dai quali dipenderà, c’è da scommettere, il progresso scientifico dei prossimi decenni.

Big data: opportunità e rischi

Linked Open Data Graph

Linked Open Data Graph di okfn, su Flickr


INTRO

Ormai quella di big data si avvia ad essere la buzzword per eccellenza del panorama tecnologico, e non solo, del 2012: alla moda, del resto, non si è sottratto neppure il sottoscritto (avendogli già dedicato un paio di post) ma qui ormai poco ci manca che l’argomento sia oggetto di discussioni al bar! Lo sdoganamento è avvenuto nel momento in cui si sono compresi gli enormi vantaggi ottenibili rendendo aperti e liberamente riutilizzabili non solo la mole di dati creati e/o raccolti dalle aziende (big data) e dalle pubbliche amministrazioni (in questo caso gli open data fanno, o meglio, dovrebbero fare da pendant con l’open government), ma anche dai singoli individui, i quali dovrebbero contribuire attivamente, attraverso le loro “segnalazioni”, ad arricchire (in termini di copertura geografica e di aggiornamento nel tempo) i dati a disposizione, il cui valore aggiunto, si badi, dipende soprattutto dalla possibilità di essere correlati tra di loro secondo modalità nemmeno lontanamente contemplate dal produttore originario (linked data). La disponibilità di dati aperti dovrebbe avere benefiche ricadute sull’economia, sulla ricerca scientifica, sulla società ed in ultima analisi sulla qualità della vita di tutti noi (non a caso ultimamente si fa un gran vociare sulla smart city anche se, lasciatemelo dire, non vedo così molti smart citizen in circolazione pronti ad abitarla!).
Cattiveria mia a parte, quella dei big data è una materia che oltre a grandi opportunità pone sfide non indifferenti in primis alla comunità archivistica: su quella più importante, riguardante il passaggio dal documento al dato, ho già scritto e anzi sia chiaro che i dubbi allora esposti permangono più che mai e fanno anzi da “cappello” a questo mio nuovo intervento nel quale, stimolato anche da due interessanti letture fatte in questi giorni, voglio invece affrontare due ulteriori aspetti, relativi rispettivamente alle misure di natura tecnica da prendere ed alla tutela della privacy.

GESTIONE E CONSERVAZIONE DEI BIG DATA: QUALI SOLUZIONI TECNICHE?

Nel corso di una breve quanto interessante intervista pubblicata su Data Center Knowledge (uno dei principali siti statunitensi di informazione sul tema dei data center; n.d.r.) ed incentrata sulle sfide poste, essenzialmente alle infrastrutture IT aziendali, dalla crescita esponenziale dei dati che occorre “maneggiare” e riutilizzare consapevolmente, John Burke, ricercatore di Nemertes, mette in evidenza come tre siano gli aspetti da tener maggiormente sotto controllo:
1) chi possiede i dati: raramente questi ultimi appartengono all’IT provider sicché è opportuno mettere in chiaro cosa e come gestirli (e, aggiungo, che fine far fare loro in caso di interruzione del rapporto di fornitura di servizi IT; il caso di Carpathia, che continua a mantenere a sue spese i dati di Megaupload “congelati” nei suoi server è emblematico). Insomma, un po’ a sfatare un mito che vuole il “depositante” come parte debole dell’accordo, emerge come entrambe le parti abbiano la convenienza che sia fatta preliminarmente massima chiarezza sui reciproci diritti e doveri e credo che, onde evitare complicazioni, questo valga anche nel caso di dati “liberi”
2) quali procedure di storage e/o archiviazione verranno utilizzate: il tema è cruciale e rimanda ad un’altra questione di non minor rilevanza, vale a dire il mutato life-cycle dei dati. Difatti fino a non molto tempo fa tale ciclo-vita aveva un andamento siffatto: a) alta frequenza d’uso (fase attiva) => b) graduale “raffreddamento” nel numero di istanze fino al c) completo inutilizzo dei dati (fase passiva), che venivano pertanto in genere cancellati e solo in determinati casi conservati permanentemente. Un simile life-cycle influiva inevitabilmente sull’infrastruttura IT predisposta: essa doveva infatti garantire elevate prestazioni nella fase attiva e prestazioni decrescenti nelle successive, motivo per cui si era soliti trovare rispettivamente nelle tre fasi sistemi RAID, dischi ottici e nastri. E’ interessante notare dunque come, paradossalmente, i dati “storici” risiedevano nelle soluzioni tecnologiche meno prestanti e meno costose e tendenzialmente più soggette a guasti e malfunzionamenti, con il conseguente pericolo di una loro perdita. Oggi il ciclo-vita sopra descritto sta scomparendo: assistiamo infatti ad un uso caratterizzato da meno picchi ma al contrario più costante e prolungato nel tempo e soprattutto con numeri di istanze mediamente più elevati (conseguenza degli usi e riusi “inaspettati” che si fanno dei dati) il che impone, specialmente in previsione dell’esplosione degli open data, di allocare questi ultimi in unità di storage generalmente più prestanti, capaci di collegarsi, una volta richiamati, con altri dataset sparsi per il mondo (interoperabilità) meglio ancora se secondo i dettami del cloud computing (indicativo di quest’ultimo trend il progetto europeo Open-DAI), in modo da poter riutilizzarli (anche) attraverso applicativi per dispositivi mobili
3) come trasportarli: questo punto riprende, per certi versi, i riferimenti appena fatti all’interoperabilità ed al cloud computing; occorre infatti che l’infrastruttura sia capace di “muovere” i dati in modo ottimale, senza intasare la WAN e soprattutto mantenendo inalterata la qualità del servizio.
Riassumendo, l’importanza crescente attribuita ai dati impone una rivisitazione delle architetture realizzative dei data center, cosa che, per chi come il sottoscritto ritiene che oggigiorno esista uno stretto nesso tra DC ed archivi, non può lasciarci indifferenti. Ma per questo rimando alle conclusioni.

OPEN DATA E TUTELA DELLA PRIVACY

Nelle battute finali di una non meno interessante, rispetto a quella citata in precedenza, intervista rilasciata a Silicon.de, Tim Berners-Lee, padre del world wide web e come già ricordato acceso sostenitore degli open linked data, non nasconde un loro grosso problema, ovvero che gran parte di essi è rappresentata da dati personali (vuoi perché conferiti volontariamente dai cittadini, vuoi perché raccolti dalla Pubblica Amministrazione) e ribadisce l’importanza che essi siano resi anonimi e che su di essi vigilino organismi indipendenti. Tali affermazioni naturalmente sono del tutto condivisibili anche se riguardo alla prima parte qualche perplessità mi rimane: ho infatti l’impressione che gli open data siano un po’ come i social network, nel senso che se si vuole sfruttarli appieno occorre rassegnarsi a cedere un po’ della propria privacy (è un po’ come se uno volesse essere su Facebook ma senza venir taggato e commentato da amici e conoscenti). Totalmente d’accordo invece sulla seconda parte, quella relativa alla presenza di organismi indipendenti, anche se qui non si può sottacere il recente caso italiano del Garante per la protezione dei dati personali: nonostante il parere contrario di quest’ultimo, il Governo, con D.L. 5/2012 (e sua conversione con L. 35/2012), ha abolito l’obbligo in capo alle aziende di redigere il Documento Programmatico della Sicurezza. Sorvolando sul merito della vicenda (il DPS a mio avviso per alcune realtà era sproporzionato, ma non ha senso toglierlo quando quasi in contemporanea si emanano le Linee Guida sul Disaster Recovery – le quali seppur con graduazioni in base alle dimensioni andrebbero fatte valere sia nel settore pubblico che nel privato – ed alle quali esso andava a mio avviso raccordato!), il punto è che salvo rari casi le varie autorità, organizzazioni, associazioni, etc. indipendenti lo sono sole di nome e quasi mai di fatto! Sono, in buona sostanza, sempre in balia o comunque influenzabili, una volta da parte dei Governi nazionali, un’altra delle multinazionali, tal’altra della lobby di turno, etc. Anche in questo caso dunque la possibilità di una effettiva tutela dei dati personali è più un’enunciazione di giusti principi che una concreta realtà. Quel che conta, in definitiva, è essere consapevoli del problema e fare i massimi sforzi per ovviarvi.

OUTRO

I dati, specie quando “grandi” ed aperti, rappresentano (se usati bene) sicuramente una grossa opportunità per migliorare il mondo in cui viviamo; il problema principale è, a mio avviso, riuscire a conciliare il giusto grado di apertura (openess) con la necessaria tutela della privacy; ciò passa anche attraverso la realizzazione di adeguate infrastrutture IT, le quali devono non solo garantire che dal punto di vista tecnico le varie richieste d’accesso ai dati avvengano in tempi rapidi, ma anche che questa velocità non vada a discapito da un lato delle misure di sicurezza poste a tutela dei dati (più o meno sensibili) presenti, dall’altro della loro (eventuale) conservazione nel lungo periodo.

La scomparsa del documento

News obsession word flow experiment #1

News obsession word flow experiment #1 di Samuel Huron, su Flickr

Il titolo di questo post potrebbe apparire ai più eccessivo, ma poiché a leggere in giro è tutto un fiorire di incontri, ricerche ed iniziative incentrate sui dati (declinati in vario modo: big data, open data o ancor meglio sui sistemi che li gestiscono, come CMS, ERP, CRM etc.) è lecito chiedersi che fine farà il nostro “caro vecchio documento”.
Posta nei termini di sfida “dato VS documento” sembra quasi di rispolverare l’annosa querelle tra archivisti (in particolare Elio Lodolini), difensori del documento collocato all’interno dell’archivio e portatore del più ampio ed incomparabilmente superiore “valore archivistico”, e documentaristi che, prendendo il documento nella sua singolarità, lo qualificavano in virtù del valore informativo in esso contenuto.
In effetti l’evoluzione tecnologica degli ultimi anni ha visto da un lato l’esplosione quantitativa delle “fonti” di produzione e dall’altro la loro parcellizzazione e tutto (avvento dell’Internet delle cose, nel quale non solo le persone ma anche gli oggetti – lavatrici, televisori, frigoriferi, etc. – sono connessi e trionfo del paradigma del cloud computing) lascia presupporre che questo fenomeno proseguirà spedito nei prossimi anni (alcuni stimano che il volume dei dati in Rete raddoppi ogni 18 mesi). La riprova che dall’informazione si sia scesi al livello sottostante del dato è evidente se si considera che oramai non si sente più parlare di information overload ma, per l’appunto, oggi ci si domanda come gestire (se possibile con un ritorno economico) questa mole sterminata di dati (big data); lo stesso Tim Berners-Lee, padre del world wide web, da lui creato spinto dalla frustrazione di non poter condividere agevolmente documenti (contenenti informazioni strutturate) con altri membri della comunità accademica, è ora un convinto sostenitore del passaggio al Web of Data, come si evince dalla visione di questo interessantissimo suo speech, in modo che potenzialmente tutti possano concorrere, a partire da dati grezzi, alla creazione di nuove informazioni, al raggiungimento di nuove scoperte scientifiche, etc.
In questa sede, come sempre, ci interessano in modo “laterale” i risvolti di business; decisamente più interessante invece approfondire come nella teoria muti, parallelamente all’imporsi del dato sul documento, la definizione di quest’ultimo. Utile a tal scopo riprendere il concetto di vista documentale presentato da Roberto Guarasci, che a sua volta si rifà al “Nuovo CAD” (D. Lgs. 235/2010); stando a questo autore è sempre più comune imbattersi in un documento come

vista, temporalmente identificata e descritta, di un processo di estrazione di dati [il grassetto è mio; n.d.r.] da repository che attesta e qualifica un evento o una transazione

e che costitutivamente sarebbe composta da 3 elementi principali: i log, le evidenze ed i metadati.
In questa definizione di documento, peraltro non confliggente con quella dinamica “as a continuum” alla InterPARES, ritroviamo tutti gli elementi principali finora individuati: i dati innanzitutto, ma anche i processi di conservazione / ricerca / estrazione ed uso a partire da “depositi” qualificati (con i metadati a fungere da imprescindibile corredo).
Le conseguenze archivistiche sono notevoli e meriterebbero di essere approfondite con ben altra ampiezza di respiro; così, su due piedi, impossibile non soffermarsi su alcuni aspetti.
1) Nel momento in cui il documento perde le sue caratteristiche di fissità (essendo l’esito di un processo dinamico di estrazione di dati che possono risiedere in repository geograficamente ed amministrativamente distinte) vengono meno anche le sue caratteristiche “esteriori”. Pertanto 2) risulta impossibile o perlomeno assai difficile effettuare una analisi di tipo diplomatistico per attestare, così come avviene ancora con il documento contemporaneo, la sua autenticità. 3) Al contrario è possibile garantire quest’ultima solo dimostrando l’avvenuta “ininterrotta custodia” dei luoghi fisici (server) nei quali vengono conservati i dati nonché l’adozione (e l’applicazione concreta!) di adeguate policy. Ritorna prepotentemente dunque 4) l’importanza di costruire infrastrutture informatiche adeguate a supportare la mole sterminata di dati che, c’è da scommetterci, la nostra società produrrà negli anni a venire.
Faccio rilevare, per concludere, che questi obiettivi non sono conseguibili agendo in modo rapsodico ma necessitano al contrario di un’attenta e consapevole analisi preliminare cui deve far seguito una sistematica fase “realizzativa” alla quale non sarebbe male che anche gli archivisti dessero il proprio contributo; purtroppo finora l’impressione è che l’approccio tenda soprattutto a tutelare e/o favorire i propri affari (dal marketing alla profilazione degli utenti) specie se si considera che anche in fatto di open data, ovvero quelli di provenienza pubblica, l’intento dichiarato è favorire la nascita di start-up (non che sia un reato, anzi!) senza dunque coinvolgere gli archivi, i quali a mio avviso potrebbero al contrario dare un buon contributo alla causa.

Open data a Milano, ma gli archivi dove sono?

Open Data

Open Data di DevelopmentSeed, su Flickr

L’altro ieri il Comune di Milano ha presentato con una certa enfasi il progetto Open Data, con il quale si rendono disponibili (lo evidenzio perché pubblici lo sono già) e soprattutto liberamente usabili quei dati raccolti dal Comune stesso, il tutto con la speranza che i cittadini creino app capaci di migliorare la vita della città dando ad esempio informazioni in tempo reale sul traffico, sui parcheggi liberi, sui tombini intasati, sulle buche presenti sul manto stradale, etc.
Naturalmente l’iniziativa va accolta con il massimo favore, anche se voglio fare un po’ il guastafeste sottolineando un paio di note dolenti / aspetti critici, i primi due dei quali sono di natura “archivistica”, i rimanenti due di ordine più generale: 1) nell’iniziativa milanese sono, in questa fase iniziale, coinvolti la direzione informatica ed il settore statistica con i rispettivi dati; anche se è già stato anticipato che progressivamente verranno resi disponibili tutti i dati di tutte le aree organizzative, mi aspettavo quanto meno un cenno di riguardo per gli archivi (correnti in primis, ma anche quelli di deposito potrebbero fornire serie storiche più che utili!) dal momento che dai documenti in essi contenuti si possono estrapolare dati a volontà! In altri termini rappresentano delle autentiche miniere! 2) i dati sono “pubblici” nel senso pieno del termine, ovvero in quanto provenienti (anche) dai cittadini e non esclusivamente da enti od organizzazioni pubbliche / a rilevanza pubblica; questo punto merita due ulteriori riflessioni: a) se da un lato quei dati provenienti dai cittadini contribuiscono a far funzionare il sistema nel suo complesso, dall’altro va riconosciuto che la loro veridicità (non parlo nemmeno di autenticità, affidabilità, etc.) non può essere paragonabile a quella dei dati provenienti, per stare in tema, dagli archivi b) tutti questi dati confluiscono in una struttura informatica che si rifà al paradigma del cloud computing e vengono aggregati a seconda delle esigenze (avvicinandosi pertanto al modello di vista documentale) 3) prendendo il modello statunitense, che è sicuramente avanti di un paio d’anni rispetto a noi, come punto di riferimento, è evidente come gli open data necessitino, come presupposto, di una tensione civica che non si crea dal nulla! Insomma, non basta “liberare i dati”, ma occorre che muti l’atteggiamento dei cittadini, cosa che non avviene da un giorno all’altro! Che si tratti di una conditio sine qua non ne ho avuto la prova guardando la diretta streaming dell’SXSW in corso ad Austin, nel corso del quale Jennifer Pahlka, fondatrice dell’organizzazione Code for America, ha espressamente sostenuto la tesi che government is what we do together, richiedendo in questo senso una attiva mobilitazione della cittadinanza la quale finisce quasi per “soppiantare” i governi locali 4) ora, ovviamente mi auguro che un simile slancio attraversi l’italica penisola ma anche se ciò avvenisse potrebbe non bastare: la Pubblica Amministrazione italiana, purtroppo, è notoriamente caratterizzata da burocratizzazione, eccesso di formalità e di formalismi, impersonalità (nonostante la 241/1990), opacità e scarsa trasparenza (anche qui alla faccia della 241). Tutte caratteristiche, ahimè, che stridono (tornando oltre Atlantico), con l’obiettivo dichiarato di Code for America, ovvero a) collaborare gomito a gomito con gli amministratori cittadini b) realizzando soluzioni web based capaci di migliorare la città. La collaborazione di cui al punto a) è ottenibile, secondo Code for America, a patto che vengano rimossi gli ostacoli burocratici e ci sia voglia di trasparenza; così facendo si arriverebbe ad un cambio del paradigma stesso con cui si governa la città, sintetizzato dall’efficace slogan “government as a platform“.
Sfide, si intuisce, difficili anche per gli Stati Uniti e che se venissero realizzate in Italia anche solo per la metà rappresenterebbero niente meno che una rivoluzione copernicana per come viene intesa la gestione della cosa pubblica e per il nuovo rapporto che si verrebbe ad instaurare tra amministratori ed amministrati; rapporto, per concludere, assai delicato e che vedrebbe, nel futuro così come nel passato, gli archivi in un ruolo chiave.