Posts Tagged ‘archivistica’

Digitale in archivi e biblioteche: un dibattito senza fine?

Empty Stacks

Empty Stacks di puddy77, su Flickr

A distanza di poche settimane l’uno dall’altro ho assistito a due interessanti incontri entrambi incentrati sull’ipersviscerato tema del digitale in archivi e biblioteche: il primo dei due, tenutosi a Padova il 24 febbraio, verteva ufficialmente su “Beni culturali e digitalizzazione” ma in realtà si è parlato esclusivamente di archivi e biblioteche, il secondo era l’oramai tradizionale incontro delle Stelline a Milano (13-14 marzo, qui purtroppo ho potuto partecipare solo alla prima giornata di lavori), incentrato quest’anno sulla “biblioteca connessa” (sottotitolo: “come cambiano le strategie di servizio al tempo dei social network“).
Devo dire che tale “ciclo di aggiornamento”, essendo così ravvicinato nel tempo, è stato piuttosto utile per mettere a fuoco, una volta di più, le differenze di approccio riguardo a questo cruciale tema presenti in prima battuta tra le due discipline ed in seconda al loro stesso interno.
Partiamo dall’archivistica. Può apparire paradossale considerando il nome che era stato dato all’incontro ma a Padova è emerso in modo palese come il dibattito sia ancora fermo a questioni che speravo essere state superate da tempo del tipo: il digitale è buono o cattivo? la digitalizzazione assicura una migliore conservazione o no?
Premesso che, come ha giustamente ricordato Melania Zanetti, la digitalizzazione può talvolta rappresentare un rischio inutile per documenti e libri, credo che in generale sia più sensato prendere atto che la produzione in ambiente digitale (non solo documentaria e libraria!) è già la realtà e, di conseguenza, che accanto al “recupero del pregresso” sia opportuno iniziare ad occuparsi, come proposto provocatoriamente (ma non senza cognizione di causa) da Giancarlo Buzzanca, delle “nuove frontiere”, come ad esempio la conservazione delle pagine Internet o della net art.
Si tratta di una posizione affine a quella manifestata sul versante biblioteconomico da Riccardo Ridi (che non a caso con largo anticipo si è posto il problema di “archiviare Internet“, n.d.r.), per il quale la digitalizzazione non è che un frammento all’interno dell’enorme ed ineluttabile passaggio al digitale, momento cruciale nel quale vanno effettuate scelte strategiche di “trasmissione del contenuto” (definito come un vero e proprio “fine di civiltà”), vale a dire di selezione di cosa trasmettere alle generazioni future.
Riaffiora, nelle parole di Ridi, l’annosa questione: è sufficiente conservare il solo contenuto o è imprescindibile conservare pure il relativo supporto? Come noto a riguardo i bibliotecari (non tutti ovviamente) sono decisamente più possibilisti rispetto agli archivisti i quali, in un certo senso “depositari” della secolare tradizione di studi diplomatici, continuano a considerare il documento come l’entità materiale (= fisica, legata cioè ad un supporto) capace di rappresentare in maniera duratura un fatto o atto giuridico; al sottoscritto non resta che rilevare che, pur ammettendo la correttezza teorica di una simile impostazione, finché si continua a discutere nel mondo documenti digitali ed ebook spopolano…
Il punto è proprio questo: il digitale è già tra noi, e di tale fatto sembra essersene fatta una ragione (forse pure troppo) soprattutto la comunità bibliotecaria.
Non è dunque un caso se durante il convegno milanese delle Stelline, prendendo spunto dalle recenti realizzazioni fisiche negli Stati Uniti ed in Corea del Sud, ci si sia chiesti se il futuro delle biblioteche sarà quello delle bookless library o se biblioteche con libri di carta avranno un loro spazio. A proposito le idee prevalenti sono più o meno sempre le stesse ed in fondo complementari: si concede che quelle biblioteche fisiche che riusciranno a crearsi una nicchia di “mercato” potrebbero anche sopravvivere ma nel contempo si ammette, subendone il fascino, che le bookless library siano accattivanti e, essendo proprio per questo motivo in grado di attirare pubblico, in prospettiva vincenti.
Proprio qui si innesta il tema “social network” oggetto del convegno: per alcuni essi sono essenziali all’interno delle strategie comunicative e di intercettazione di quei flussi comunicativi (= delle persone che li alimentano) che parlano della biblioteca, per altri (soprattutto Riccardo Ridi, presente anche a Milano) essi dovrebbero assolvere una funzione meramente strumentale (tanto più che essi vanno e vengono, n.d.r.), essendo la cosa più sociale che le biblioteche possono fare continuare a svolgere il proprio lavoro di intermediazione e di facilitazione nell’accesso alle risorse informative, siano esse su supporto analogico che digitale (Ridi).
Il riferimento critico, evidente, è a David Lankes e a quella scuola di pensiero che vuole che nelle biblioteche si faccia di tutto fuorché quello per cui esse sono nate.
Personalmente mi ritrovo più sulle posizioni “tradizionaliste”, anche se con un “piccolo” distinguo. Infatti, a parte alcune specifiche e particolari realtà bibliotecarie, non vedo perché un utente dovrebbe recarsi in una biblioteca e tanto più in una bookless library quando a breve potrà accedere alle risorse informative da qualsiasi device a disposizione: farlo equivarrebbe ad azzerare buona parte dei vantaggi del digitale! Forse sono io pigro e probabilmente sottovaluto il desiderio di aggregazione e di curiosità della gente, sul quale evidentemente puntano le biblioteche di nuova concezione (con caffè, stampanti 3D, scanner 3D, chitarre, sonic chair e via discorrendo) come la Biblioteca pubblica di Colonia, però il dubbio mi rimane…
Anzi ho le sensazione che proprio l’offerta al pubblico di “amenità” che ben poco hanno a che fare con il compito core di archivisti e bibliotecari sia un trait d’union che accomuna le due professioni. Una possibile spiegazione potrebbe essere la seguente: la perdita di fisicità, nel momento in cui fa venir meno prassi e certezze consolidate e presagire nel contempo scenari cupi (declino / fine delle rispettive professioni), spinge ad accordare priorità assoluta ad attività secondarie (oltre ai social network qualcuno mi deve spiegare che c’entrano, con la vera valorizzazione, i vari concerti, rappresentazioni teatrali, etc. che si fanno sempre più spesso negli archivi?) capaci di attirare un pubblico che, a sua volta, dovrebbe assicurare una visibilità (presso i cittadini e soprattutto i decisori politici) tale da giustificarne la sopravvivenza. Il futuro ci dirà se si tratta di una mossa azzeccata o, come credo, autolesionistica.

Autenticazione grafometrica tra privacy ed esigenze di conservazione: è vera semplificazione?

Wacom bamboo pen di cnycompguy, su Flickr

Wacom bamboo pen di cnycompguy, su Flickr

Sul sito del Garante per la protezione dei dati personali sono state recentemente pubblicate le motivazioni, di fatto e di diritto, sulla scorta delle quali il Garante medesimo autorizza il gruppo bancario Unicredit, che aveva avanzato apposita istanza nell’ottica di migliora e snellire i propri servizi, a “trattare” i dati biometrici derivanti dalle firme dei propri clienti.
La lettura del dispositivo offre molteplici spunti di riflessione:
1) in primo luogo va precisato che il Garante ammette il trattamento dei dati biometrici non già per operazioni di sottoscrizione digitale bensì per quelle di autenticazione (= verifica dell’identità della persona che si presenta allo sportello), autenticazione che avviene mediante comparazione (matching) tra la firma apposta al momento su tablet e quelle conservate come “modello” in una apposita base di dati
2) in secondo luogo è interessante osservare come a) nella fase iniziale di enrollement vengano acquisite, da ciascun cliente, ben 6 firme (ciò al fine di crearsi un “profilo medio” di come un individuo firma) ma anche come b) successivamente il sistema sia in grado di “tracciare” l’eventuale processo di modifica nel tempo del modo in cui il cliente scrive (questa dinamicità, per inciso, preoccupa il Garante in quanto potrebbe rivelare aspetti comportamentali dell’individuo)
3) le misure tecnologiche di sicurezza sono molteplici: crittografia tanto al momento della firma quanto in quello del trasferimento dei dati; NON residenza della firma all’interno del tablet (che funge da mero “supporto” di scrittura, definito signpad) bensì in database dedicati all’interno di server siti sul territorio nazionale; conservazione dei dati di log
4) la conservazione dei dati biometrici relativi alla firma dura fintantoché è instaurato il rapporto tra il cliente e la banca; una volta venuto a cessare quest’ultimo c’è l’obbligo della loro cancellazione immediata (al netto di tempi tecnici ed eventuali contenziosi legali pendenti).
Personalmente, pur trovando la maggior parte di queste prescrizioni comprensibili, mi chiedo se esse non siano eccessive e rischino di annullare tutti i potenziali vantaggi. Ad esempio, pur avendo io già a suo tempo espresso perplessità sull’affidabilità del “sistema tablet” nel suo complesso, ritengo che la firma biometrica su tavoletta dovrebbe permettere di sottoscrivere un documento e non ridursi a mero strumento preliminare di verifica dell’identità del cliente (verifica che, beninteso, va fatta)! Che senso ha effettuare l’autenticazione con firma biometrica per poi sottoscrivere le successive operazioni bancarie attraverso strumenti quali le smart card che di certo non brillano per praticità?
Mi pare che in un simile sistema i grattacapi crescano esponenzialmente: infatti, non fossero bastate tutte le preoccupazioni derivanti dalla conservazione dei certificati, delle marche temporali, etc. ci si trova ora a dover conservare per un arco temporale indefinito (quale può essere la durata del rapporto che si instaura tra una banca ed i suoi clienti) pure quelli biometrici relativi alle firme!
Anche alla luce della “Guida alla Firma Digitale” predisposta dall’allora CNIPA, versione 1.3 dell’aprile 2009 (citata dallo stesso Garante), e delle riflessioni dell’avvocato Lisi che avevo riportato in un altro mio post di qualche tempo fa non sarebbe più naturale, oltre che economicamente vantaggioso, sottoscrivere (e non solo autenticare) su tablet, concentrando su questo gli sforzi di conservazione?

Con Glacier anche gli archivi storici vanno sulla nuvola

Inside the library

Inside the library di muegyver, su Flickr


LA NOTIZIA

Non sarà passato inosservato ai più l’annuncio, dato da Amazon qualche settimana fa, del lancio di Glacier, servizio di archiviazione sulla nuvola appositamente pensato per quei dati / documenti digitali oramai “vecchi” e poco utilizzati ma dei quali per svariati motivi (prescrizione legislativa, ragioni di opportunità e convenienza, etc.) è prevista la conservazione nel lungo periodo.
Come spiegato in un post di Werner Vogels, CTO di Amazon, il servizio si rivolge ad un pubblico eterogeneo: si spazia dalle grandi aziende alle PMI, passando naturalmente per le giovani e dinamiche start up, senza ovviamente dimenticare gli enti di ricerca, i governi, le aziende sanitarie, le media company, le biblioteche, etc.
A tutti costoro Amazon propone di sottoscrivere un contratto sicuramente aggressivo ed “accattivante”: appena 0,01 dollari per Gigabyte al mese (0,011 qualora come data center di riferimento si scelga quello irlandese) purché non si “movimenti” più del 5% di quanto caricato o non lo si cancelli entro 90 giorni dall’upload; in tale evenienza Amazon applica una tariffa che parte da 0,011 GB nel primo caso e fissa di 0,033 nel secondo (per ulteriori dettagli sul piano tariffario rimando a questa pagina). L’intento è chiaro, ovvero disincentivare gli utenti a fare un uso “improprio” di Glacier che, per l’appunto, è dedicato all’archiviazione (caratterizzata da un relativamente minor numero di operazioni di recupero) e non allo storage di breve respiro; a fungere da ulteriore deterrente a comportamenti “da furbetti”, oltre alla tariffazione, è il tempo stesso impiegato per l’operazione di estrazione dei dati / documenti richiesti, mediamente quantificato in 5 ore!

LE REAZIONI

Dal momento che la stessa Amazon, in linea con tutte le “novità” che gravitano attorno al cloud computing, ha impostato la sua proposta puntando sull’elemento cost-effectiveness, non deve sorprendere che il dibattito sui siti e blog specializzati si sia sviluppato con l’obiettivo preciso di confutare o meno la convenienza del nuovo servizio omettendo quasi del tutto di chiedersi se esso, al di là della dimensione economica, risponda realmente alle esigenze di archiviazione: è banale sottolinearlo ma gli eventuali risparmi ottenibili da soli non giustificano il passaggio ad un diverso sistema di archiviazione, soprattutto qualora quest’ultimo non sia archivisticamente valido almeno quanto quello che si abbandona! Ciò nondimeno, anche alla luce delle perduranti ristrettezze economiche, credo sia utile sintetizzare le posizioni dei due schieramenti, rimandando ai paragrafi successivi per una trattazione più dettagliata delle caratteristiche squisitamente archivistiche di Glacier e delle problematiche sollevate.
I detrattori del nuovo servizio di Amazon si sono sforzati, conti alla mano, di dimostrare come esso non sia competitivo rispetto alle librerie di nastri che vorrebbe pensionare dal momento che costa circa 10 volte tanto (soprattutto in presenza di archivi di notevoli dimensioni; siamo sull’ordine delle decine di Petabyte, n.d.r.). Se da Amazon si sono affrettati a rispondere che per vedere i risparmi bisogna (giustamente a mio avviso, dal momento che stiamo parlando di archiviazione nel lungo periodo) fare proiezioni di spesa che vadano oltre i 5 anni, altri analisti hanno rilevato come i sostenitori delle tape library abbiano omesso di mettere in conto alcune voci di spesa non esattamente irrilevanti, come quelle derivanti dalla necessità di allestire un sito secondario di ripristino oppure ancora una buona quota di quelle di manutenzione e di gestione (e come ben sintetizza Enrico Signoretti, quel che conta è il TCO e non il TCA, vale a dire il costo totale di possesso e non quello di acquisto!); morale della favola, aggiungendo queste ulteriori voci di spesa le soluzioni finiscono per l’equivalersi ma con il vantaggio innegabile, per coloro che si affidano a Glacier, di venir “affrancati” da ogni incombenza diretta sulla materia e soprattutto con la certezza di non venire mai a trovarsi nella poco invidiabile situazione di essere dotati di infrastrutture vuoi sottodimensionate vuoi sovradimensionate (origine nel primo caso di sprechi e di inefficienze, nel secondo di onerosi upgrade); con Glacier, così come con tutti gli altri servizi ispirati al modello del cloud computing, si paga infatti solo in base all’effettivo consumo (pay-as-you-go) con la possibilità di scalare verso l’alto o verso il basso a seconda delle esigenze.

OSSERVAZIONI DI NATURA TECNICA

Come accennato poc’anzi uno dei tratti salienti di Glacier è l’abbandono del nastro magnetico come supporto principe (e low cost!) per l’archiviazione di massa di lunga durata; sollecitata a dare delucidazioni sulle soluzioni tecnologiche adottate, Amazon ha confermato attraverso un portavoce che “essentially you can see [Glacier] as a replacement for tape” che gira su “inexpensive commodity hardware components” (verosimilmente, chiosa l’autore dell’articolo, si tratta di un “very large storage arrays consisting of a multitude of high-capacity low-cost discs”).
Si tratta di una informazione di non poco conto dal momento che si abbandonano i nastri, con la loro lenta memoria ad accesso sequenziale (in sostanza per accedere ad un determinato dato occorre percorrere tutto il nastro a partire dall’ultimo punto cui si era acceduti), in luogo delle più performanti memorie ad accesso diretto: peccato che ciò sia vanificato dai lunghi tempi di latenza (circa 5 ore) entro i quali Amazon garantisce il recupero. Insomma, un servizio low cost ma anche very slow!
Per il resto viene ovviamente posto l’accento sulla ridondanza delle copie: ogni dato viene archiviato in più strutture ed in più dispositivi all’interno della singola struttura, al punto che si garantisce, come anzidetto, la durabilità annuale del 99.999999999% con periodiche, rigorose operazioni di verifica dell’integrità dei dati medesimi.

OSSERVAZIONI DI NATURA ARCHIVISTICA

Dal punto di vista archivistico con Glacier viene fino ad un certo punto ricostituita sulla nuvola l’unitarietà fisica e logica dell’archivio: giusto per restare in casa Amazon se su Amazon Web Services (AWS) va la parte corrente su Glacier va quella storica con la prospettiva, come ricordato da Vogels nel post citato, che in un prossimo futuro le due parti possano dialogare pienamente con il trasferimento dall’una una all’altra.
Ma oltre a questa premessa di cappello ci sono altre considerazioni archivistiche da fare; vediamo in modo un po’ più articolato:
1) poche righe sopra scrivevo che viene a ricrearsi l’unità dell’archivio “fino ad un certo punto”: questa precisazione perché non esiste ad oggi una soluzione intermedia per la fase di deposito né è dato sapersi se mai esisterà! Oramai infatti il cambiamento di status tra le varie fasi, al di là di alcuni aspetti giuridici (ad esempio il passaggio di responsabilità dai responsabili dei vari uffici a quello della conservazione), si risolve dal punto di vista “fisico” nell’allocazione dei dati / documenti in device sempre più omogenei e che differiscono, come ben esemplificano i prodotti di Amazon, “solo” per diverse scelte architetturali e per il livello di prestazioni
2) le cinque ore di tempo di latenza entro il quale Amazon assicura il recupero dei dati e la possibilità di effettuarne il download sono oggettivamente troppi: per anni si è scritto che l’avvento del digitale avrebbe garantito una fruizione universale ed istantanea degli archivi storici, favorendone nel contempo la valorizzazione, ed ora ci si dovrebbe accontentare di un tempo di recupero mediamente assai superiore rispetto a quello occorrente in un Archivio di Stato per vedersi consegnata la busta (cartacea) richiesta?!
Mi si potrà obiettare che non necessariamente i dati / documenti devono essere accessibili al pubblico ed inoltre che, in linea con l’Hyerarchical Storage Management (HSM), è sempre possibile allocare quei dati / documenti “di valore” negli storage device più prestanti, ma ciò vuol dire non tener conto di quanto ultimamente si va dicendo in fatto di big data =>
3) riguardo a quest’argomento assai in voga io stesso in un post di qualche mese fa ho evidenziato come, alla luce degli usi e riusi inaspettati che si fanno (e si faranno sempre più) degli open (linked) data, il relativo life-cycle stia mutando: meno picchi ma al contrario un uso più costante e prolungato nel tempo e soprattutto con numeri di istanze mediamente più elevati. In buona sostanza, considerando che Amazon stessa indica tra i vari scenari applicativi quello degli open data (i quali praticamente per definizione non si sa se, come, quando e da chi verranno utilizzati), non è sensato far aspettare un eventuale ricercatore per ore ed ore! Questo aspetto ci introduce al punto seguente =>
4) il mutato ed imprevedibile data life-cycle dei giorni nostri, al contrario di quello “scontato” che l’ha preceduto (caratterizzato da alto uso durante la fase attiva e poi istanze man mano decrescenti nella fase passiva), rende ovviamente più difficile l’individuazione, che giocoforza deve essere effettuata a priori, di quali dati caricare e conseguentemente delle soluzioni di archiviazione più idonee. Del resto questo problema rimanda a quello più amplio della discrezionalità (in assenza di strumenti avvicinabili al massimario di selezione e scarto), circa cosa caricare e ai conseguenti rischi di rottura del vincolo archivistico
5) critici pure alcuni aspetti denunciati da Andrea Rota (che ha avuto modo di provare Glacier) sul suo blog personale: a prescindere dal fatto che le “operazioni di upload e download possono essere effettuate solo tramite la programmazione delle API di Amazon” (quindi in modo non immediato), Rota sottolinea che “come già avviene per altri servizi di storage di Amazon, i file caricati perdono il loro nome originale, che viene sostituito con una lunga stringa alfanumerica”, motivo per cui “se si vuole tracciare l’associazione fra nome e stringa identificativa, ad esempio per ricercare i file per nome, è necessario mantenere un indice esterno a Glacier oppure usare i metadati associati agli archivi”. Pare dunque di capire che, in assenza di adeguate cautele, vi sia l’elevato pericolo di perdita dei legami esistenti tra i vari dati / documenti.

OSSERVAZIONI DI NATURA LEGALE

Non meno importanti gli aspetti di natura legale sulla valutazione complessiva del servizio: valgono infatti in toto le considerazioni fatte a suo tempo per i servizi di storage sulla nuvola. Non a caso l’uso di Glacier è soggetto al medesimo contratto che regolamenta Amazon Web Services (si veda a riguardo AWS Customer Agreement) ed in particolare, tra le tante, vige la seguente condizione (punto 11; i grassetti sono miei, n.d.r.):

WE AND OUR AFFILIATES OR LICENSORS WILL NOT BE LIABLE TO YOU FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, CONSEQUENTIAL OR EXEMPLARY DAMAGES […], EVEN IF A PARTY HAS BEEN ADVISED OF THE POSSIBILITY OF SUCH DAMAGES. FURTHER, NEITHER WE NOR ANY OF OUR AFFILIATES OR LICENSORS WILL BE RESPONSIBLE FOR ANY COMPENSATION, REIMBURSEMENT, OR DAMAGES ARISING IN CONNECTION WITH: (A) YOUR INABILITY TO USE THE SERVICES, INCLUDING […] (II) OUR DISCONTINUATION OF ANY OR ALL OF THE SERVICE OFFERINGS, OR, (III) WITHOUT LIMITING ANY OBLIGATIONS UNDER THE SLAS, ANY UNANTICIPATED OR UNSCHEDULED DOWNTIME OF ALL OR A PORTION OF THE SERVICES FOR ANY REASON, INCLUDING AS A RESULT OF POWER OUTAGES, SYSTEM FAILURES OR OTHER INTERRUPTIONS; […] (D) ANY UNAUTHORIZED ACCESS TO, ALTERATION OF, OR THE DELETION, DESTRUCTION, DAMAGE, LOSS OR FAILURE TO STORE ANY OF YOUR CONTENT OR OTHER DATA. IN ANY CASE, OUR AND OUR AFFILIATES’ AND LICENSORS’ AGGREGATE LIABILITY UNDER THIS AGREEMENT WILL BE LIMITED TO THE AMOUNT YOU ACTUALLY PAY US UNDER THIS AGREEMENT FOR THE SERVICE THAT GAVE RISE TO THE CLAIM DURING THE 12 MONTHS PRECEDING THE CLAIM

Condizioni, si intende, che definire sbilanciate è un eufemismo e che peraltro stridono con le numerose rassicurazioni date in ordine all’affidabilità tecnica (si veda il 99.999999999% di durabilità media annuale): non ha senso da un lato promettere mari e monti e dall’altra declinare praticamente ogni responsabilità impegnandosi a risarcimenti spesso irrisori!

CONCLUSIONI

Tirando le somme, Glacier è sicuramente interessante in quanto costituisce il primo esempio di servizio sulla nuvola pensato per la conservazione permanente di dati e documenti digitali, questi ultimi in prospettiva “raccordati” pure con la parte corrente; è questa probabilmente l’unica nota positiva assieme al pricing aggressivo (che indubbiamente costituisce un ottimo biglietto da visita) giacché è bastata la veloce analisi alla quale ho sottoposto il nuovo servizio made in Seattle per evidenziare come esso patisca le consuete “tare”: discrezionalità su cosa caricare con conseguente rischio di rottura del vincolo, assenza di metadati (la cui presenza dipende dalla buona volontà di chi carica i dati), termini legali insoddisfacenti, cui si aggiungono un tempo di latenza imbarazzante e la vexata quaestio se sia o no un vantaggio affidare a terzi la gestione dei propri archivi digitali (o più correttamente delle infrastrutture sulle quali questi risiedono). Come saprete ritengo che almeno le istituzioni pubbliche dovrebbero farsi carico di queste incombenze ma a vedere il trend sono in minoranza…

Big data: opportunità e rischi

Linked Open Data Graph

Linked Open Data Graph di okfn, su Flickr


INTRO

Ormai quella di big data si avvia ad essere la buzzword per eccellenza del panorama tecnologico, e non solo, del 2012: alla moda, del resto, non si è sottratto neppure il sottoscritto (avendogli già dedicato un paio di post) ma qui ormai poco ci manca che l’argomento sia oggetto di discussioni al bar! Lo sdoganamento è avvenuto nel momento in cui si sono compresi gli enormi vantaggi ottenibili rendendo aperti e liberamente riutilizzabili non solo la mole di dati creati e/o raccolti dalle aziende (big data) e dalle pubbliche amministrazioni (in questo caso gli open data fanno, o meglio, dovrebbero fare da pendant con l’open government), ma anche dai singoli individui, i quali dovrebbero contribuire attivamente, attraverso le loro “segnalazioni”, ad arricchire (in termini di copertura geografica e di aggiornamento nel tempo) i dati a disposizione, il cui valore aggiunto, si badi, dipende soprattutto dalla possibilità di essere correlati tra di loro secondo modalità nemmeno lontanamente contemplate dal produttore originario (linked data). La disponibilità di dati aperti dovrebbe avere benefiche ricadute sull’economia, sulla ricerca scientifica, sulla società ed in ultima analisi sulla qualità della vita di tutti noi (non a caso ultimamente si fa un gran vociare sulla smart city anche se, lasciatemelo dire, non vedo così molti smart citizen in circolazione pronti ad abitarla!).
Cattiveria mia a parte, quella dei big data è una materia che oltre a grandi opportunità pone sfide non indifferenti in primis alla comunità archivistica: su quella più importante, riguardante il passaggio dal documento al dato, ho già scritto e anzi sia chiaro che i dubbi allora esposti permangono più che mai e fanno anzi da “cappello” a questo mio nuovo intervento nel quale, stimolato anche da due interessanti letture fatte in questi giorni, voglio invece affrontare due ulteriori aspetti, relativi rispettivamente alle misure di natura tecnica da prendere ed alla tutela della privacy.

GESTIONE E CONSERVAZIONE DEI BIG DATA: QUALI SOLUZIONI TECNICHE?

Nel corso di una breve quanto interessante intervista pubblicata su Data Center Knowledge (uno dei principali siti statunitensi di informazione sul tema dei data center; n.d.r.) ed incentrata sulle sfide poste, essenzialmente alle infrastrutture IT aziendali, dalla crescita esponenziale dei dati che occorre “maneggiare” e riutilizzare consapevolmente, John Burke, ricercatore di Nemertes, mette in evidenza come tre siano gli aspetti da tener maggiormente sotto controllo:
1) chi possiede i dati: raramente questi ultimi appartengono all’IT provider sicché è opportuno mettere in chiaro cosa e come gestirli (e, aggiungo, che fine far fare loro in caso di interruzione del rapporto di fornitura di servizi IT; il caso di Carpathia, che continua a mantenere a sue spese i dati di Megaupload “congelati” nei suoi server è emblematico). Insomma, un po’ a sfatare un mito che vuole il “depositante” come parte debole dell’accordo, emerge come entrambe le parti abbiano la convenienza che sia fatta preliminarmente massima chiarezza sui reciproci diritti e doveri e credo che, onde evitare complicazioni, questo valga anche nel caso di dati “liberi”
2) quali procedure di storage e/o archiviazione verranno utilizzate: il tema è cruciale e rimanda ad un’altra questione di non minor rilevanza, vale a dire il mutato life-cycle dei dati. Difatti fino a non molto tempo fa tale ciclo-vita aveva un andamento siffatto: a) alta frequenza d’uso (fase attiva) => b) graduale “raffreddamento” nel numero di istanze fino al c) completo inutilizzo dei dati (fase passiva), che venivano pertanto in genere cancellati e solo in determinati casi conservati permanentemente. Un simile life-cycle influiva inevitabilmente sull’infrastruttura IT predisposta: essa doveva infatti garantire elevate prestazioni nella fase attiva e prestazioni decrescenti nelle successive, motivo per cui si era soliti trovare rispettivamente nelle tre fasi sistemi RAID, dischi ottici e nastri. E’ interessante notare dunque come, paradossalmente, i dati “storici” risiedevano nelle soluzioni tecnologiche meno prestanti e meno costose e tendenzialmente più soggette a guasti e malfunzionamenti, con il conseguente pericolo di una loro perdita. Oggi il ciclo-vita sopra descritto sta scomparendo: assistiamo infatti ad un uso caratterizzato da meno picchi ma al contrario più costante e prolungato nel tempo e soprattutto con numeri di istanze mediamente più elevati (conseguenza degli usi e riusi “inaspettati” che si fanno dei dati) il che impone, specialmente in previsione dell’esplosione degli open data, di allocare questi ultimi in unità di storage generalmente più prestanti, capaci di collegarsi, una volta richiamati, con altri dataset sparsi per il mondo (interoperabilità) meglio ancora se secondo i dettami del cloud computing (indicativo di quest’ultimo trend il progetto europeo Open-DAI), in modo da poter riutilizzarli (anche) attraverso applicativi per dispositivi mobili
3) come trasportarli: questo punto riprende, per certi versi, i riferimenti appena fatti all’interoperabilità ed al cloud computing; occorre infatti che l’infrastruttura sia capace di “muovere” i dati in modo ottimale, senza intasare la WAN e soprattutto mantenendo inalterata la qualità del servizio.
Riassumendo, l’importanza crescente attribuita ai dati impone una rivisitazione delle architetture realizzative dei data center, cosa che, per chi come il sottoscritto ritiene che oggigiorno esista uno stretto nesso tra DC ed archivi, non può lasciarci indifferenti. Ma per questo rimando alle conclusioni.

OPEN DATA E TUTELA DELLA PRIVACY

Nelle battute finali di una non meno interessante, rispetto a quella citata in precedenza, intervista rilasciata a Silicon.de, Tim Berners-Lee, padre del world wide web e come già ricordato acceso sostenitore degli open linked data, non nasconde un loro grosso problema, ovvero che gran parte di essi è rappresentata da dati personali (vuoi perché conferiti volontariamente dai cittadini, vuoi perché raccolti dalla Pubblica Amministrazione) e ribadisce l’importanza che essi siano resi anonimi e che su di essi vigilino organismi indipendenti. Tali affermazioni naturalmente sono del tutto condivisibili anche se riguardo alla prima parte qualche perplessità mi rimane: ho infatti l’impressione che gli open data siano un po’ come i social network, nel senso che se si vuole sfruttarli appieno occorre rassegnarsi a cedere un po’ della propria privacy (è un po’ come se uno volesse essere su Facebook ma senza venir taggato e commentato da amici e conoscenti). Totalmente d’accordo invece sulla seconda parte, quella relativa alla presenza di organismi indipendenti, anche se qui non si può sottacere il recente caso italiano del Garante per la protezione dei dati personali: nonostante il parere contrario di quest’ultimo, il Governo, con D.L. 5/2012 (e sua conversione con L. 35/2012), ha abolito l’obbligo in capo alle aziende di redigere il Documento Programmatico della Sicurezza. Sorvolando sul merito della vicenda (il DPS a mio avviso per alcune realtà era sproporzionato, ma non ha senso toglierlo quando quasi in contemporanea si emanano le Linee Guida sul Disaster Recovery – le quali seppur con graduazioni in base alle dimensioni andrebbero fatte valere sia nel settore pubblico che nel privato – ed alle quali esso andava a mio avviso raccordato!), il punto è che salvo rari casi le varie autorità, organizzazioni, associazioni, etc. indipendenti lo sono sole di nome e quasi mai di fatto! Sono, in buona sostanza, sempre in balia o comunque influenzabili, una volta da parte dei Governi nazionali, un’altra delle multinazionali, tal’altra della lobby di turno, etc. Anche in questo caso dunque la possibilità di una effettiva tutela dei dati personali è più un’enunciazione di giusti principi che una concreta realtà. Quel che conta, in definitiva, è essere consapevoli del problema e fare i massimi sforzi per ovviarvi.

OUTRO

I dati, specie quando “grandi” ed aperti, rappresentano (se usati bene) sicuramente una grossa opportunità per migliorare il mondo in cui viviamo; il problema principale è, a mio avviso, riuscire a conciliare il giusto grado di apertura (openess) con la necessaria tutela della privacy; ciò passa anche attraverso la realizzazione di adeguate infrastrutture IT, le quali devono non solo garantire che dal punto di vista tecnico le varie richieste d’accesso ai dati avvengano in tempi rapidi, ma anche che questa velocità non vada a discapito da un lato delle misure di sicurezza poste a tutela dei dati (più o meno sensibili) presenti, dall’altro della loro (eventuale) conservazione nel lungo periodo.

La natura infrastrutturale degli archivi contemporanei

IMG_20110415_151845 di GrigorPDX, su Flickr

Left: air filters - they look like plain old disposable filters you'd have in your furnace. Right top: louvers leading to outside air Right bottom: louvers leading to the "hot" side of the data center racks.
(Foto di GrigorPDX, su Flickr)


INTRODUZIONE.

In un celebre quanto datato articolo Robert-Henry Bautier, insigne archivista e medievista francese, proponeva una interessante periodizzazione circa la storia degli archivi; in particolare egli individuava quattro fasi, la terza delle quali veniva definita come “celle des archives arsenal de l’authorithé” e che sarebbe stata caratterizzata dalla concentrazione dei fondi all’interno di edifici realizzati ad hoc che erano in tutto e per tutto castelli, vale a dire muniti di fossati, mura e torrioni difensivi in pietra (da manuale i casi del castello di Simancas in Spagna oppure quello di Castel Sant’Angelo nello Stato Pontificio). Dietro a simili realizzazioni stava una concezione che attribuiva ai documenti un’importanza decisiva per il regolare andamento della macchina amministrativa, l’attestazione dei diritti e delle prerogative regie così come per l’attuazione della politica estera (per riprendere Bautier gli archivisti, e gli archivi, “se font auxiliaires de la politique e de la diplomatie“) motivo per cui la dimensione del corretto ordinamento delle carte procedeva di pari passo con quella della loro “sicura custodia”. Insomma, il ricorso a questa terminologia “militaresca” da parte di Bautier non era dettato da semplici motivazioni retoriche ma dalla constatazione di una realtà oggettiva: così come l’arsenale è una struttura deputata alla costruzione, alla riparazione, all’immagazzinamento ed alla fornitura di armi e munizioni, similmente l’archivio era il luogo in cui trovavano riparo quei documenti che sarebbero stati usati alla stregua di armi nel corso delle bella diplomatica del XVII secolo.

I DATA CENTER, ARSENALI DEL XXI SECOLO.

Con le debite differenze, sulle quali torno poco sotto, mi sembra che gli odierni “arsenali archivistici” siano rappresentati dagli enormi data center che si vanno costruendo in giro per il mondo; il paragone appare calzante in quanto 1) in essi si vanno concentrando le “memorie digitali” relative a milioni e milioni di persone, enti ed aziende 2) nella loro realizzazione vengono adottate precauzioni ed accorgimenti del tutto affini a quelle delle basi militari. Basta dare una scorsa alle misure di sicurezza messe in campo da Amazon per capire come l’accostamento con la realtà militare sia tutt’altro che campato per aria:

Amazon has many years of experience in designing, constructing, and operating large-scale data centers. This experience has been applied to the AWS platform and infrastructure. AWS data centers are housed in nondescript facilities, and critical facilities have extensive setback and military grade perimeter control berms as well as other natural boundary protection. Physical access is strictly controlled both at the perimeter and at building ingress points by professional security staff utilizing video surveillance, state of the art intrusion detection systems, and other electronic means. Authorized staff must pass two-factor authentication no fewer than three times to access data center floors. All visitors and contractors are required to present identification and are signed in and continually escorted by authorized staff.

Amazon only provides data center access and information to employees who have a legitimate business need for such privileges. When an employee no longer has a business need for these privileges, his or her access is immediately revoked, even if they continue to be an employee of Amazon or Amazon Web Services. All physical and electronic access to data centers by Amazon employees is logged and audited routinely.

Fin qui le affinità; venendo alle differenze, ve ne sono due di macroscopiche: 1) gli archivi residenti nei data center, per quanto militarizzati, almeno in linea di principio non sono concepiti per essere al servizio di un qualche potere vessatorio ma bensì sono la base per offrire “servizi” e/o custodire dati, documenti, etc. di cittadini liberi, di aziende operanti nel libero mercato e di istituzioni democratiche 2) diversamente dai secoli passati, lo Stato sembra latitare ed i principali data center sono di proprietà di colossi ben noti al grande pubblico come Amazon, Apple, Google, Facebook ma anche di provider / fornitori come Carpathia, Cogent, OVH, Rackspace, Digital Realty; operatori che ovviamente poi sono ben lieti di offrire i propri “servizi” ai vari enti pubblici! Ad esempio sia Amazon che Carpathia hanno sviluppato apposite soluzioni per il Governo Federale degli Stati Uniti, il quale attinge largamente in modalità cloud computing a questo tipo di servizi (cliccate qui per una lista parziale); in Europa invece, essendo la legislazione comunitaria relativa al trasferimento transfrontaliero dei dati decisamente più restrittiva, si è molto più cauti nell’affidarsi a privati.
Ciò nonostante, ragionando in prospettiva, è verosimile ipotizzare che nell’Unione Europea o si allenteranno le citate restrizioni al trasferimento dei dati (a riguardo si sta delineando una spaccatura tra stati nordici, non disponibili ad un simile passo, e stati mediterranei, più possibilisti), dando dunque la possibilità di avvalersi dei servizi offerti da privati, oppure si procederà alla realizzazione di data center europei in territorio europeo. Personalmente ritengo la seconda opzione come la più lungimirante per i seguenti motivi: 1) il possedere dei data center è, dal punto di vista archivistico, premessa necessaria (ma non sufficiente) per attuare le indispensabili procedure tese a garantire la continuità operativa ed il disaster recovery (il che consente in primis di salvaguardare la parte “corrente”, vale a dire quei dati e documenti contenuti nei server ed indispensabili per il proseguimento dell’attività “istituzionale” del produttore, ed in ultima analisi di garantire la conservazione nel lungo periodo; ovviamente anche un privato può attuare questi piani ma quando si tratta della cosa pubblica e, soprattutto, sono in ballo aspetti così delicati, sono dell’avviso che la P.A. debba occuparsene direttamente) 2) assicura indipendenza ed in un ultima analisi “libertà”. Il rovescio della medaglia, evidente, è che ci si deve fare carico di tutti i costi: realizzativi, di gestione e di manutenzione.

DATA CENTER: MODELLI REALIZZATIVI, ASPETTI TECNICI…

La maggior parte dei moderni data center non è costituita da pochi supercomputer o pochissimi mainframe, bensì dall’unione all’interno di un medesimo spazio fisico di migliaia di elaboratori di fascia medio – bassa. E’ questo, tra i tanti, l’approccio di Google che significativamente lo definisce wharehouse computing e così lo descrive:

The hardware for such a platform consists of thousands of individual computing nodes with their corresponding networking and storage subsystems, power distribution and conditioning equipment and extensive cooling systems. The enclosure for these systems is in fact a building structure and often indistinguishable from a large warehouse

Tale definizione individua quelli che sono gli elementi principali di un data center ovvero “n” elaboratori, custoditi in una sorta di armadietto definito in gergo rack, a loro volta siti all’interno di un edificio e collegati tra di loro. Da ciò deriva che in un DC ricoprono un ruolo cruciale i seguenti sistemi:
1) UPS (Uninterruptible Power Supply; Gruppo di Continuità), il quale assolve a tre compiti fondamentali, ovvero a) garantire l’erogazione continua di energia elettrica alla struttura e, qualora dovesse verificarsi un’interruzione nella fornitura da parte della public utility, b) far intervenire la batteria fintantoché non interviene il generatore di emergenza, il tutto c) senza che si verifichino dannosi sbalzi di tensione
2) PDU (Power Distribution Units), ovvero il sistema di distribuzione dell’energia elettrica, distribuzione che avviene attraverso quadri e/o interruttori elettrici in genere “annegati” nel pavimento del data center
3) sistema di condizionamento; il metodo più diffuso vede la presenza di CRAC (Computer Room Air Conditioning), vale a dire di “stanze” dalle quali spira aria fredda che, scorrendo sotto il pavimento (tra il pavimento vero e proprio e quello che effettivamente si calpesta e sul quale sono collocati rack, CRAC, etc. può esserci sino ad un metro e mezzo di spazio vuoto; n.d.r.), esce attraverso delle specie di grate giusto in corrispondenza dei rack da raffreddare; l’aria calda uscita dai rack fluisce verso l’alto all’interno di un ulteriore spazio vuoto posto nel soffitto e di qui indirizzata verso il CRAC per riprendere il circolo. Nei DC più evoluti la gestione dei flussi d’aria è così raffinata che ad ogni singolo server perviene la necessaria aria di raffreddamento alla temperatura ottimale (una via alternativa è il cosiddetto in-rack cooling nel quale ogni “armadietto” è praticamente “cablato” da serpentine che fungono da scambiatori di calore; questa soluzione ovviamente ottimizza il raffreddamento ma è assai costosa dal momento che l’impianto di raffreddamento viene ad estendersi su tutta la superficie del centro dati oltre che relativamente più pericolosa giacché, in caso di rottura delle serpentine, il liquido di raffreddamento potrebbe finire sulla parte elettrica… evenienza assolutamente da scongiurare!).

Cabinet Airflow

Cabinet Airflow di talk2stu, su Flickr

Va ricordato, per finire, che per aumentare il livello di sicurezza spesso e volentieri i citati elementi sono ridondanti; così se in un data center Tier I vi è un’unico canale di raffreddamento e di distribuzione dell’energia in un Tier IV (il più elevato della scala) ve ne sono due di attivi oltre che ulteriori percorsi di emergenza. Non va ovviamente neppure dimenticato che fondamentale risulta essere la localizzazione geografica del data center: non dovrebbe trovarsi, ad esempio, in zone sismiche, in prossimità di corsi d’acqua ed in generale in aree soggette ad allagamenti o frane (“a rischio idro-geologico”) così come andrebbero evitate zone troppo fredde od al contrario troppo calde! Inoltre, sarebbe auspicabile che nella realizzazione dei DC europei si metabolizzasse l’approccio “green” di Gartner e, pertanto, si facesse ricorso a fonti di energia rinnovabile.

… E L’OBIETTIVO INDEROGABILE DELLA CONTINUITA’ OPERATIVA.

Castelli e fortezze, spesso progettati dai migliori architetti militari, erano in grado di resistere a lunghissimi attacchi ed assedi senza che si verificasse un sensibile degradamento della loro capacità bellica; similmente tutte le soluzioni tecnologiche descritte nella precedente sezione sono finalizzate a garantire la continuità operativa (business continuity), ossia il normale funzionamento dei servizi ICT utilizzati per lo svolgimento delle attività istituzionali, anche in presenza di disguidi tecnici, di “attacchi” o di altri eventi imprevisti. A fronte di avvenimenti che provocano l’indisponibilità prolungata del data center in cui normalmente si opera / al quale ci si appoggia (sito primario), viene attivato il piano di disaster recovery, il quale prevede l’attuazione di un mix di soluzioni tecnologiche ed organizzative tese a garantire la pronta ripresa dell’attività istituzionale in siti alternativi (detti secondari) rispetto a quelli primari/di produzione per il tempo necessario a rendere nuovamente operativo il sito primario.
Si tratta, manco a dirlo, di argomenti da tempo dibattuti in ambito internazionale ma che in Italia, dal punto di vista legislativo, solo di recente hanno finalmente trovato piena recezione; ad esempio le “Linee guida per il Disaster Recovery delle Pubbliche Amministrazioni”, redatte ai sensi dell’art. 50-bis, co. 3 del CAD (D. Lgs. 82/2005), hanno visto la luce solo nell’autunno 2011 ed imponevano che ogni ente presentasse entro il 25 aprile 2012 un Piano di Continuità Operativa (PCO) ed uno di Disaster recovery (PDR), individuando contestualmente una figura responsabile (RCO). Al di là del fatto che le varie amministrazioni abbiano ottemperato o meno nei tempi prescritti ai suddetti obblighi di legge, mi preme qui rilevare come l’input sia stato essenzialmente “archivistico”: nelle citate Linee Guida si trova infatti testualmente scritto che “il processo di dematerializzazione promosso dal CAD […] ha trasformato da ordinatoria a perentoria l’azione di eliminazione della carta, comporta[ndo] un incremento della criticità dei sistemi informatici che non possono più contare su un backup basato sulla documentazione cartacea”.
Da quanto innanzi detto derivano a cascata alcuni cambiamenti di una certa portata:
1) la continuità operativa ed in subordine il disaster recovery sono possibili a patto di individuare preliminarmente, accanto al sito primario, un sito secondario al quale trasferire come operazione di routine i dati / documenti prodotti dal primario; in caso di “problemi” il sito secondario diviene temporaneamente operativo fintantoché il primario non ritorna disponibile e pertanto deve disporre delle necessarie risorse hardware e software =>
2) nelle procedure di BC / DR diventa un fattore cruciale il trasferimento tra i due siti; le Linee Guida prevedono sei livelli (Tier 1 – 6) nei primi due dei quali il trasferimento consiste nel trasporto fisico (ad esempio a mezzo di apposito furgone) dal sito primario a quello secondario dei dischi ottici contenenti la copia di backup. E’ inutile sottolineare, però, come nell’epoca di Internet, grazie anche all’innalzamento delle velocità di upload / download ed ai migliori tempi di latenza, la Rete sia la soluzione più in voga e come il paradigma del cloud computing sia la soluzione sulla quale oggi si punta di più
3) dando per assodato che il trasferimento dei dati avvenga attraverso la Rete, va osservato che le operazioni di copia (Data Mirroring) finiscono per riguardare anche gli applicativi; le Linee Guida infatti lo definiscono “un processo con cui dati ritenuti critici vengono copiati secondo precise regole e politiche di backup al fine di garantire l’integrità, la custodia e la fruibilità degli archivi, dei dati e delle applicazioni e la possibilità di renderli utilizzabili, ove fosse necessario, procedendo al ripristino degli archivi, dei dati e delle applicazioni presso un sito alternativo a quello primario”. In particolare uno degli obiettivi principali è ottenere l’allineamento dei dati (ovvero il “coordinamento dei dati presenti in più archivi finalizzato alla verifica della corrispondenza delle informazioni in essi contenute”; per inciso l’allineamento, a seconda del Tier prescelto, può essere asincrono o sincrono) ed eventualmente il retroallineamento (ovvero “caricare” i dati prodotti nel sito secondario durante una fase di emergenza in quello primario in vista della ripresa dell’operatività di quest’ultimo) =>
4) dal punto di vista archivistico l’attuazione del Piano di Continuità Operativa significa il trasferimento costante di dati / documenti dal sito primario a quello secondario con questi ultimi che, nel caso di Tier 6, sono de facto speculari, motivo per cui (fatto salvo il caso di mancato allineamento), mi sembra si possa parlare della presenza di originali in duplice copia (per quanto poco senso possa avere la distinzione originale – copia in ambiente digitale). Inoltre è interessante osservare come, proprio perché parte integrante delle policy messe in atto, l’instabilità e l’ubiquità di dati e documenti sia, soprattutto nella fase corrente, più la regola che l’eccezione.
5) il legislatore ha chiaro come le operazioni di backup da un sito all’altro non equivalgono alla conservazione di lungo periodo per finalità storico – documentali; a proposito nelle Linee Guida ci si limita a ricordare come occorra raccordarsi al Manuale di conservazione e come il “salvataggio” debba avvenire su supporti adeguati. Sulla scorta di tali suggerimenti mi vien da ipotizzare due possibili soluzioni: a) all’interno della medesima coppia di data center vanno predisposti dei rack attrezzati con storage server di elevata qualità (diversamente dai rimanenti che, abbiamo visto, possono essere di livello medio – basso) nei quali destinare quei dati e documenti per i quali è prevista la conservazione permanente (la cosa è fattibile in quanto la “destinazione finale” è nota sin dal momento della creazione) b) che accanto alla coppia di data center deputati alla fase operativa / corrente ne venga costruita una ad hoc per quella di conservazione.
A prescindere da quale delle due opzioni prediligere (motivazioni di contenimento dei costi / ottenimento di economie di scala mi fanno propendere per la prima soluzione), va rimarcato come venga confermato che la migliore strategia conservativa sia quella di assicurare (potendolo provare attraverso audit, file di log, etc.), che la vita dei dati / documenti è sempre avvenuta all’interno di un sistema sicuro ed inviolato (e qui ritorniamo alle specifiche costruttive che devono possedere i data center) e che le procedure di copia sono avvenute senza errori.
6) Superfluo, da ultimo, sottolineare come gli aspetti tecnici non debbano mettere in secondo piano quelli organizzativi (come sempre deve venir coinvolta l’intera organizzazione!); mi preme solamente evidenziare come vada assolutamente individuata una catena di comando strutturata gerarchicamente secondo un modello che guarda caso rimanda nuovamente all’ambiente militare.

CONCLUSIONI.

Considerando la formazione prettamente umanistica della maggior parte degli archivisti (sottoscritto naturalmente incluso), comprendo come gli argomenti trattati in questo post appaiano oggettivamente ostici; eppure con tali tematiche occorre confrontarsi in quanto, è la mia convinzione, l’archivio del prossimo futuro coinciderà de facto con i moderni data center. Si tratta di un cambiamento di prospettiva di notevole portata per almeno i seguenti motivi: a) in primo luogo perché si torna a parlare di archivio nel suo complesso e non per questa o quella delle ripartizioni logiche – corrente, deposito, storico – nelle quali la teoria e la legislazione tradizionalmente l’hanno suddiviso b) in secondo luogo perché l’archivio diviene infrastruttura strategica e centrale per il “regolare svolgimento” della vita (digitale) di cittadini, aziende ed enti pubblici c) ultimo perché, della costruzione di tali data center / archivi “arsenali”, devono tornare a farsene carico gli Stati, meglio ancora se in chiave europea, l’unica che può garantire il necessario apporto finanziario nonché quell’ampiezza di spazi geografici tali da rendere la localizzazione dei DC veramente adeguata al raggiungimento dei dichiarati obiettivi di business continuity e di disaster recovery.

A chi volesse approfondire questo importante argomento consiglio di leggere la versione su Storify di questo post, ricca di documenti utili.

Volunia, tra aspettative e perplessità

Volunia, la presentazione

Volunia, la presentazione. Archivio Antico dell'Università di Padova 02/02/2012

Torno fresco fresco (in senso non solo figurato) dalla presentazione di Volunia, l’attesissimo motore di ricerca concepito e realizzato da Massimo Marchiori, e non posso far a meno di esternare alcune riflessioni che mi sono frullate per il cervello sin dal primo momento in cui il professore ha mostrato le prime immagini e fornito le prime spiegazioni.
1) Marchiori ha consapevolmente voluto creare un SE di seconda generazione, ben sapendo che il web sta cambiando (a prescindere ora dalle varie etichette 1.0, 2.0, 3.0 che lasciano il tempo che trovano) e che gli utenti si aspettano qualcosa di più che una “arida” lista di risultati. Proprio il passaggio ad un tipo di web diverso, quello chiuso in rigidi steccati di cui parla Zittrain per intenderci, deve però farci porre la cruciale domanda: i SE sono ancora lo strumento migliore / il migliore tra quelli possibili? Non era meglio azzerare tutto e pensare a qualcosa di radicalmente diverso? In definitiva con Volunia la modalità di interrogazione resta immutata, cambiano le risposte di ritorno che dovrebbero rappresentare il vero salto di qualità dal momento che a) ci viene fornita una mappa del contenuto informativo di ogni sito b) ci vengono mostrate anche le persone che hanno visitato quel sito, aiutandoci (eventualmente) a metterci in contatto con loro.
2) Proprio questa attenzione per l’anima “sociale” del web rappresenta senz’altro un motivo di avanzamento ma potrebbe finire con l’essere un’arma a doppio taglio: a) in un’Europa che ha una sensibilità completamente diversa dal resto del mondo sul tema della privacy (tanto da arrivare ai ferri corti con Google), la cosa potrebbe non essere accolta con favore; b) mi si potrà obiettare che il mercato di Volunia è, nelle intenzioni, globale e che la stessa funzione social è disattivabile dall’utente ma è evidente che senza di essa il nuovo motore di ricerca perde gran parte del suo carattere innovativo.
3) E’ mancata del tutto una spiegazione di come funziona il nuovo algoritmo di ricerca; intendiamoci, non mi aspettavo che venisse svelata la “formula segreta” ma qualche tecnicismo in più non avrebbe guastato!
4) Ovviamente il mio interesse per il nuovo motore di ricerca era soprattutto quello dell’archivista / bibliotecario / documentalista che voleva sapere se con Volunia era stato compiuto un significativo passo in avanti verso sistemi di information retrieval “intelligenti” capaci di interpretare compiutamente le query e di fornire risultati pertinenti previa l’analisi semantica delle varie risorse sul web (o in subordine se per l’algoritmo sviluppato poteva profilarsi un’applicazione dedicata in questi campi). A tal riguardo nulla è stato detto né sono riuscito a chiedere alcunché a Marchiori dal momento che il question time è stato brevissimo (tutto perché la presentazione è iniziata in consistente ritardo non solo per il consueto ritardo “accademico” bensì per elementari disguidi tecnici che ci hanno fatto fare l’ennesima figuraccia… stavolta in streaming mondiale!), ma l’impressione ricavata è che in Volunia si sia puntato, per l’appunto, sulla dimensione sociale. Per il sottoscritto una piccola delusione.
Per concludere un motore di ricerca che ha saputo sollevare moltissimo interesse (e già questo è un risultato) ed ha trasformato per un giorno Padova nella Silicon Valley ma che per poter essere giudicato compiutamente dev’essere, come sempre, provato nel quotidiano.

In libreria “Archivi e biblioteche tra le nuvole”

"Archivi e biblioteche tra le nuvole" (front cover)

Come preannunciato nel precedente post ho pubblicato un libro su cloud computing e dintorni.
In particolare parlo delle sue applicazioni in ambito archivistico e bibliotecario in sinergia con la diffusione dei nuovi mobile device, il che mi porta ad approfondire temi quali il social reading / networking, il fenomeno dello storage sulla nuvola e tutti i connessi problemi di privacy.