Posts Tagged ‘archivi digitali’

Nelle reti neurali il futuro dei data center (e degli archivi digitali)?

neural network

neural network di onkel_wart (thomas lieser), su Flickr

L’idea di fondo che permea buona parte dei post pubblicati in questo blog è che in tempi di cloud computing imperante, gli archivi digitali stiano tendenzialmente finendo per coincidere con i data center; questi ultimi, nella teoricamente impalpabile nuvola, rappresenterebbero la parte “materiale” (la ferraglia, per intenderci) del sistema, nella quale i nostri dati e documenti digitali trovano riparo.
Quest’approccio archivistico ai data center, inevitabile alla luce di quelli che sono i miei interessi, mi ha dunque inesorabilmente portato a prendere in considerazione queste infrastrutture strategiche essenzialmente nella loro “staticità” (intendendo con tale termine la capacità di offrire, materialmente, ricovero ai dati e documenti caricati nella nuvola), sottacendo nella maggior parte dei casi l’insieme di compiti computazionali che in misura crescente deleghiamo “al lato server“.
L’annuncio dato da Google con un post nel suo blog circa l’applicazione di tecnologie machine learning in uno dei suoi data center (DC), oltre ad aprire scenari che fino a pochi anni fa avrebbero trovato posto al più nei libri di fantascienza, spariglia le carte e mi impone a riflettere se l’impostazione sin qui adottata rimanga corretta o sia al contrario da rivedere.
Ma, prima di abbandonarci a voli pindarici, partiamo dalla notizia che, va detto, in sé non rappresenta nulla di trascendentale: in sostanza i tecnici dell’azienda di Mountain View, sempre alla ricerca di nuovi metodi per tagliare i consumi energetici dei propri DC, invece di seguire le teorie “classiche” che puntano su aspetti quali la dislocazione geografica (con tentativi talvolta stravaganti, come il fantomatico data center galleggiante approntato nella baia di San Francisco proprio da Big G e che così tanto ha fatto discutere lo scorso autunno), hanno ottenuto importanti risparmi implementando un “neural network” capace di apprendere dal comportamento di quei macchinari presenti nel DC e deputati al raffreddamento dei server (aspetto, come noto, costosissimo ma fondamentale per garantirne la massima operatività ed efficienza), prevedendo l’andamento dei consumi e, passaggio successivo, ottimizzandoli.
Ma cosa intende Google per rete neurale (artificiale)? Come specificato in un white paper diffuso per l’occasione, l’idea di fondo è realizzare “[a] class of machine learning algorithms that mimic cognitive behaviour via interactions between artifical neurons”; tali algoritmi permettono di avviare nelle macchine un processo di “apprendimento” (training) progressivo e cumulativo (nonché potenzialmente infinito) che ha come obiettivo l’accrescimento complessivo della “conoscenza” e l’accuratezza / qualità dei dati raccolti, con il fine dichiarato di individuare “patterns and interactions between features to automatically generate best-fit model”.
Nel concreto che hanno fatto i ricercatori di Google? Hanno applicato una serie di sensori in punti chiave del data center (quali refrigeratori, torri di raffreddamento, scambiatori di calore, pompe, etc.) ed hanno iniziato a cambiare, uno alla volta, i vari parametri tenendo nel frattempo costanti gli altri. Sono in tal modo riusciti a vedere non solo gli effetti, sull’intero sistema, dei cambiamenti apportati ma, grazie agli algoritmi di apprendimento utilizzati, sono stati in grado di far “imparare” il sistema dalle performance passate sviluppando progressivamente capacità predittive tali da migliorare quelle future.
Si capirà dunque come i titoloni circolati nei giorni scorsi (vedi le “superintelligent server farms” di cui ha parlato Techcrunch) siano eccessivi: Google, in definitiva, ha “semplicemente” reso operativo, peraltro in via sperimentale, un primo fascio di reti neurali artificiali applicato a quella che è la parte “meccanica” dei DC.
Il data center supercervellone capace di agire (ed interagire) sulla falsariga del celeberrimo HAL 9000 del film “2001 – Odissea nello spazio” (ovvero un supercomputer dotato di intelligenza artificiale ed in grado, se interrogato, di fornirci risposte), è dunque lungi dal divenire realtà.
Una volta depurata la notizia dai risvolti “fantascientifici” con i quali è stata subito ricoperta, bisogna però pure ammettere come essa, al di là del suo significato “basico” (ovvero la possibilità, anche per quei DC che svolgono funzioni di “archivio”, di adottare algoritmi di machine learning grazie ai quali ottenere considerevoli risparmi), riveste effettivamente una notevole importanza archivistica.
E’ stato infatti compiuto, con il progetto pilota di Google, un importante salto qualitativo: è infatti solo questione di tempo prima che i sensori vengano applicati, oltre che alla parte meccanica, ai server medesimi. Quando ciò avverrà il neural network instaurerà nessi e collegamenti (assimilabili in qualche modo al vincolo archivistico impuro?) tra i vari dati e documenti conservati sprigionandone l’intero potenziale informativo (tema connesso a quello dei big data ed al warehouse computing del quale ho parlato giusto nel mio ultimo post) e decretando così l’importanza strategica degli archivi.
Inoltre, aspetto non secondario, d’ora in poi l’idea statica di “data center come archivio”, ovvero come luogo fisico nel quale risiedono concretamente i dati ed i documenti digitali, è destinata a lasciar posto a quella, dinamica, di data center come luogo nel quale si instaurano collegamenti e percorsi nuovi e non prevedibili da parte… di un’intelligenza artificiale; l’attenzione si sposterà, in altri termini, dal contenitore (il DC) al suo contenuto.
Con tutto ciò che ne consegue.

Il data warehouse in archivi e biblioteche

Teradata Storage Rack

Teradata Storage Rack di pchow98, su Flickr

Dei beni culturali come “oro nero dell’Italia” o, leggera variante sul tema, come “giacimenti” capaci di fungere da volano per l’economia nazionale si parla e scrive da decenni. L’idea di fondo, in ogni caso, è la medesima: la “cultura” genera ricchezza in modo tangibile e non solo in modo indiretto (ad es. attraverso il “godimento” di un quadro oppure in virtù delle benefiche ricadute sul capitale umano)!
Un neo di questo approccio era rappresentato dal fatto che i beni archivistici e librari venivano tradizionalmente considerati come le “cenerentole”, spettando al contrario a musei e siti archeologici la parte del leone.
Tale scenario è radicalmente cambiato, a ben guardare, con l’avvento dell’era digitale: nel mondo dei bit ad avvantaggiarsi della possibilità di essere trasformati in una sequenza di 0 ed 1 sono, piuttosto che le statue ed i quadri (almeno fino a quando realtà virtuale / aumentata non faranno il salto di qualità, n.d.r.), proprio libri e documenti. Questi ultimi, come noto, sono sempre più oggetto di trattamenti (che avvengono perlopiù in automatico) volti a raccogliere le informazioni / i dati in essi contenuti.
Sulle implicazioni teoriche e tecnico-pratiche di questo fenomeno ho già scritto qualcosa in questo blog, senza però mai affrontare quelli che sono, non nascondiamocelo, i motivi principali per cui i dati e le informazioni risultano così “attraenti”, vale a dire gli evidenti risvolti di business.
Del resto di business information in biblioteca si parla da decenni (basta pensare al vetusto “Business Information. How to Find and Use It” di Marian C. Manley, pubblicato nel lontano 1955…) ed oggi è normale che le principali biblioteche pubbliche offrano un servizio dedicato (vedi la British Library); analogamente è superfluo rilevare come gli archivi digitali rappresentino, in quanto a ricchezza di dati e documenti da destrutturare (data / text mining) al fine di ricavarne utili informazioni, un autentico Eldorado.
In altri termini non ci si deve scandalizzare per l’accostamento, che può apparire dissacrante specie in un paese come l’Italia in cui l’approccio predominante ad archivi e biblioteche è quello storico-umanistico, alle concrete questioni di business; al contrario, credo che vadano esplorate a fondo le evidenti, allettanti prospettive che si aprono (a fianco, si badi, di altre applicazioni che, invece, altro non sono che un modo nuovo di fare qualcosa che per certi versi si è sempre fatto).
Ritengo in particolare ci si debba soffermare sul concetto di data warehouse (letteralmente traducibile come “magazzino di dati”, n.d.r.), dal momento che esso presenta interessanti analogie con quello di archivio.
Infatti, a prescindere ora dal tipo di architettura con la quale lo si implementa (ad uno, due oppure tre livelli oppure top-down o bottom-up), esso può essere considerato una specie di “archivio” informatico o, più correttamente, un repository nel quale sono stipati dati selezionati (il che ne fa una sorta di collezione, cioè dal punto di vista teorico l’antitesi di un archivio, n.d.r.) sfruttati da un’organizzazione (in genere un’azienda di grosse dimensioni) per facilitare e velocizzare la produzione di analisi e di relazioni il più possibile attendibili / predittive e pertanto utili a fini decisionali ed, in subordine, operativi.
In breve, un sistema di data warehousing raccoglie dati provenienti dall’interno (allocandoli in tal caso in data mart) e dall’esterno dell’organizzazione, li trasforma, ed una volta “puliti” (cleaning), omogeneizzati e corredati di un adeguato numero di metadati, li stocca nelle unità di storage da dove vengono “richiamati” (aggregandoli / analizzandoli / comparandoli) e presentati alla persona deputata a compiere in primis le scelte aziendali strategiche “pure” così come quelle relative ad aree quali il controllo di gestione, l’e-commerce, il risk e l’asset management, il supporto alle vendite / marketing, etc.; si tratta dunque di un imprescindibile sistema di business intelligence.
E se si deve ribadire che il (contenuto di un) data warehouse non è un archivio né tantomeno una biblioteca, non devono nemmeno essere sottaciute alcune potenziali aree di interesse: i vertici della Pubblica Amministrazione, chiamata in questi anni ad un titanico sforzo di rinnovamento in chiave digitale, possono ignorare le potenzialità informative di quegli inesauribili “magazzini di dati” che sono gli archivi?
Similmente le biblioteche, che così precocemente si sono gettate nella mischia offrendo servizi di business information, possono non compiere l’ulteriore passo entrando nell’agone del business intelligence?
Peraltro per le biblioteche accademiche (specie quelle afferenti ai dipartimenti di scienze) i compiti potrebbero essere ben più “critici”: nel momento in cui la mole di dati ottenuta dalle varie ricerche condotte dai team si fa immane, non è logico pensare che la tradizionale funzione di supporto alla didattica ed alla ricerca avvenga non solo mettendo a disposizione i risultati di analoghe ricerche nel mondo (mediante i consueti canali quali riviste scientifiche peer reviewed, abstract, e-journal, etc.) ma anche concorrendo alla “manutenzione” di quei sistemi deputati a contenere e rielaborare i dati grezzi come sono per l’appunto quelli dedicati al data warehouse?
Insomma, anche su questo fronte le opportunità non mancano. Come sempre ci vuole, oltre ad un minimo di lungimiranza, una buona dose di coraggio ed intraprendenza per saperle cogliere.

Fog computing, l’archivio dell’Internet delle Cose

THETA Notes di petahopkins

Photo credits: THETA Notes di petahopkins, su Flickr

In questo blog mi sono occupato più volte di cloud computing: troppe infatti le ripercussioni sulle modalità di creazione, sedimentazione e conservazione degli archivi digitali (tanto di persona quanto di organizzazioni pubbliche e private) per non parlarne!
Proprio per questo motivo è il caso di presentare, a chi non ne avesse già sentito parlare, quella che potrebbe essere la nuova buzzword del mercato IT per i prossimi anni.
Mi sto riferendo al concetto di fog computing il quale, si badi, non ha al momento avuto implementazioni pratiche né alcuna definizione standard da parte di organizzazioni internazionali quali ad esempio il NISO.
Il fog computing infatti è un paradigma sviluppato, in analogia a quello di cloud computing, un paio d’anni fa da un gruppo di ricercatori di Cisco ma che è diventato oggetto di discussione da parte di un pubblico più amplio rispetto a quello degli addetti ai lavori solo in tempi recenti.
Ma cosa si intende, più precisamente, con fog computing? La stessa terminologia è di aiuto a comprendere per bene: se la nuvola (cloud) si staglia in alto nel cielo, la nebbia (fog) si colloca ad un livello intermedio tra questa e la Terra, anzi… assai aderente al suolo! Detto fuor di metafora il fog computing si prefigge di creare un’infrastruttura (con le canoniche risorse di calcolo, storage e rete) capace di rispondere in misura migliore rispetto alla Nuvola a quelle che saranno le probabili esigenze del prossimo futuro, futuro che sarà caratterizzato dall’exploit del cosiddetto Internet delle cose (in inglese Internet of Things o, più brevemente, IoT), ovvero dalla massiccia ed attiva presenza in Rete non solo di agenti umani ma anche di oggetti (e non solo quella serie di dispositivi indossabili tipici del wearable computing ma anche e soprattutto automobili, impianti semaforici, elettrodomestici, sensori vari sparsi per la città e lungo le vie di comunicazione con la funzione precisa di catturare dati relativi all’ambiente, alle condizioni del traffico, etc.).
Secondo gli esperti di Cisco, in altri termini, per far sì che l’IoT funzioni adeguatamente bisogna disporre di una infrastruttura ad hoc (la “nebbia”, per l’appunto) che sia complementare rispetto a quella fornita dalla cloud, ritenuta troppo centralizzata e “distante” (e di conseguenza con tempi di latenza troppo elevati rispetto a quelli richiesti allorquando in ballo ci sono i dati relativi, ad esempio, al traffico stradale ed il semaforo deve calcolare in frazioni di secondo, in base al numero di autovetture, bici e pedoni in procinto di attraversamento, come regolarlo nel modo più efficiente); le caratteristiche del fog computing sono dunque la bassa latenza, l’elevata distribuzione geografica, la connettività mobile (tramite punti di accesso Wi-Fi o reti LTE, ma in ogni caso con netta predominanza del wireless), la forte presenza di applicazioni in streaming o, ancora più probabile, in real time (come ben esemplificato dal caso del semaforo presentato poc’anzi).
Dal punto di vista fisico tutto ciò si traduce, come sempre, nella creazione di data center; come ricordato all’inizio la realizzazione di questi ultimi non è ancora stata avviata ma, considerando il requisito dell’elevata distribuzione geografica, verosimilmente essi saranno di dimensioni più contenute e più “agili”; in particolare le risorse di storage non saranno pensate per l’archiviazione di medio lungo periodo bensì per quella di breve e contraddistinte pertanto da alte prestazioni ed alti costi (non so quali soluzioni abbiano in mente quelli di Cisco, diciamo che trovo improbabile l’utilizzo di tape library!); i dati che necessitano di un più approfondito esame o semplicemente di una conservazione più lunga verranno invece avviati alla cloud dove, stipati assieme ai dati provenienti dalle altre fog geograficamente distribuite sulla superficie terrestre, andranno a creare la moltitudine di big data destinati ad un’analisi altrettanto “big” (big analytics).
Ciò che credo vada qui sottolineato è in primo luogo che il fog computing risponde all’esigenza, avvertita da più parti, di maggior “concretezza” e solidità rispetto al cloud computing (indicativo di questa tendenza, anche nel nome, il servizio Metal as a Service); in secondo luogo va rimarcato come i dati trattati dal nuovo modello proposto da Cisco, pur essendo provenienti dall’IoT, non sono per questo meno importanti e, soprattutto, sensibili rispetto a quelli che finiscono nella cloud per la conservazione di lungo periodo: infatti accanto ai dati relativi all’umidità relativa ed alla percentuale di polveri sottili nell’aria potrebbero pure figurare, man mano che l’e-health prenderà piede, quelli relativi al nostro livello di glucosio nel sangue trasmessi al nostro medico oppure quelli, più banali ma non meno invasivi, inviati dall’auto durante i nostri viaggi (georeferenziazione). La definizione di Internet delle cose è infatti per certi versi ingannevole; quest’ultima infatti non è solo smart city o smart grid o altri termini tanto accattivanti quanto vaghi; al contrario essa è, andando oltre agli slogan, composta di moltitudini di dati che riguardano le persone: finiscano essi nella nebbia o nella nuvola, vanno adeguatamente trattati.
Insomma, altro lavoro in vista non solo per i responsabili IT, per i sistemisti ed i data analyst ma anche per gli archivisti.

Per ulteriori materiali di approfondimento consiglio la lettura dello Storify appositamente realizzato.

Archiviazione digitale: la soluzione è il peer to peer?

Il modello di cloud p2p di Space Monkey

Il modello di cloud p2p di Space Monkey (fonte: http://www.spacemonkey.com/press)

Il cloud computing è stato un modello tecnologico che sin dal suo apparire ha fortemente diviso la comunità degli informatici e dei CIO tra fautori ed oppositori. A fronte degli evidenti (?) vantaggi di natura economica e di disponibilità H24 dei propri dati / documenti, si è sempre sottolineato come si perdesse il controllo diretto sugli stessi; forti dubbi inoltre venivano (vengono) sollevati in ordine alla tutela della privacy anche se, puntualizzavano i favorevoli, ciò appariva come un qualcosa di accettabile in ragione della sicurezza complessiva garantita dalle strutture (quegli enormi data center che Google, Facebook, Amazon, Apple, etc. vanno costruendo per mezzo mondo) che li ospitavano.
L’uragano Sandy ha però fatto in parte crollare queste certezze; ciò, unitamente a motivazioni di ordine economico (molti servizi non sono poi così convenienti come vorrebbero far credere…) ed ideologico (la ricerca di soluzioni di archiviazione green meno energivore rispetto ai data center, il ritorno ad un computing decentrato) ha indotto a sviluppare soluzioni alternative, soprattutto di personal digital archiving (dal momento che chi ha capacità e disponibilità economiche si costruisce la sua bella private cloud!), che salvassero i vantaggi minimizzando gli svantaggi.
Le linee ad oggi seguite sono state essenzialmente due: la prima è stata quelle di realizzare una cloud domestica (altresì detta personal cloud) con tanto di mini server, gruppi di continuità in grado di salvaguardare dagli sbalzi di corrente e garantire un minimo di autonomia in caso di interruzione nell’erogazione di energia elettrica, etc.; la seconda strada è stata quella di realizzare una rete interconnessa di sistemi di storage di piccole dimensioni. E’ di quest’ultima che mi occupo in questo post.
Spieghiamo innanzitutto in che cosa consiste una “nuvola” P2P? In estrema sintesi si tratta di un sistema che permette la condivisione di risorse di storage connesse alla rete; in pratica ciascun appartenente al network mette a disposizione una porzione del proprio spazio di archiviazione ottenendone a sua volta in cambio dell’altro da parte degli altri aderenti alla rete: un apposito software provvede ad effettuare in automatico una copia (spacchettata e criptata) dei nostri dati / documenti inviandola a kilometri di distanza e garantendone in tal modo la sopravvivenza in caso di rotture del dispositivo di storage, di calamità naturali, etc.
Un esempio concreto è Space Monkey: per 10 dollari al mese questa azienda fornisce ai suoi utenti un dispositivo ad hoc da 3 terabyte di memoria (uno disponibile, i rimanenti due destinati ad ospitare file altrui) che promette di essere più veloce nelle operazioni di upload/download nonché energeticamente più efficiente; la “sopravvivenza” dei propri dati è garantita, come anzidetto, dal fatto che essi vengono replicati in molteplici dispositivi di storage ma anche dall’ulteriore copia che viene fatta nel data center gestito, quale ulteriore precauzione, da Space Monkey stessa. Un sistema siffatto, questa è l’idea, dovrebbe risentire assai meno di eventuali outage (qualunque ne sia la causa) e garantire pertanto l’accesso ai propri dati o perlomeno ad una buona parte di essi.
Personalmente ritengo che questa soluzione, almeno dal punto di vista archivistico, non risolva granché i problemi di personal archiving dal momento che la questione della sicurezza e della eventuale sottrazione di dati / documenti resta sul tappeto. Come non pensare, giusto per fare un banale esempio, che un eventuale malintenzionato si abboni al servizio e tenti, dall’interno, di violarne le difese? In questo senso un tradizionale data center concepito a mo’ di fortino mi sembra molto più rassicurante! Considerando poi che un sistema siffatto non ha pretese di garantire autenticità, affidabilità, integrità, etc. né tantomeno la conservazione nel medio – lungo periodo si deduce che esso non soddisfa i requisiti per fungere da valido sistema di archiviazione digitale (al massimo può essere uno dei tanti modi per diversificare il rischio, così come suggerito dagli esperti del National Digital Information Infrastructure and Preservation Program).
Paradossalmente però un modello distribuito strutturato sulla falsa riga di Space Monkey potrebbe rivelarsi felicemente applicabile ad archivi “istituzionali” massimamente in paesi territorialmente poco estesi come l’Italia: posto che, in attesa dell’entrata in vigore del “Regolamento generale sulla protezione dei dati” (redatto a livello europeo), il trasferimento degli stessi all’estero presenta non poche controindicazioni, bisogna prendere atto che per il momento le soluzioni non possono che essere nazionali; a sua volta ciò deve portare a riconoscere che, ai fini del disaster recovery, è impresa improba (in special modo una volta eliminate le numerose zone a rischio sismico, idrogeologico, etc.) riuscire ad impiantare nello Stivale due data center che si trovino ad una distanza di sicurezza soddisfacente l’uno dall’altro!
Giusto per fare un esempio concreto PARER, il principale Polo italiano per la conservazione digitale, ha due data center rispettivamente nelle province di Bologna e Milano più un sito di back-up offline in quella di Roma. Specie nel primo caso le distanze non mi sembrano sufficientemente rassicuranti (tra Bologna e Milano ci sono appena 200 km mentre tra Bologna e Roma 300 e tra Milano e Roma 480; qui uno strumento per farvi i vostri calcoli!): d’accordo, eventi come il citato Sandy sono improbabili in Italia, ma considerando la tropicalizzazione cui a detta di molti esperti va incontro il bacino del Mediterraneo ed alla luce dei frequenti eventi estremi dei quali siamo testimoni, un po’ di preoccupazione ce l’avrei!
In altri termini sarebbe il caso di valutare se un sistema distribuito che preveda la realizzazione di un unico data center in una zona scelta con tutti i crismi del caso affiancato da una cospicua quantità di “punti di storage” (una per provincia?) nei quali replicare più e più volte i dati sia più confacente al caso italiano. Caso italiano, ricordo, caratterizzato tradizionalmente da un policentrismo spinto e da più centri di produzione e sedimentazione documentaria. Motivo ulteriore per verificare la fattibilità della soluzione.

Capacità di storage come asset centrale della biblioteca del futuro?

Vatican Library, Rome di bharat.rao, su Flickr

Vatican Library, Rome

In un mio post di qualche tempo fa mi soffermavo sulla crescente importanza, per i moderni archivi digitali, che va assumendo l’infrastruttura tecnologica.
Ovviamente da questo trend non sono immuni nemmeno le biblioteche e la riprova la si ha leggendo la notizia, diffusa pochi giorni fa, della partnership instaurata tra EMC, colosso statunitense con quasi quarant’anni di esperienza alle spalle nei sistemi di storage ed archiviazione, e la Biblioteca Apostolica Vaticana: in estrema sintesi EMC, all’interno di un più vasto programma che unisce saggiamente filantropia a marketing, si impegna a fornire le risorse di storage necessarie ad immagazzinare l’intero patrimonio di libri manoscritti, incunaboli e cinquecentine che ci si appresta, in un arco di tempo stimato in tre anni, a digitalizzare.
Se ad impressionare è l’enorme spazio di memorizzazione messo a disposizione, ovvero 2,8 petabyte (equivalenti a 2.936.012,800 gigabyte; per rendere l’idea tale cifra la si raggiunge unendo 587.202 computer con disco rigido da 500 GB), non meno importanti sono le riflessioni che si possono ricavare da questa vicenda.
Innanzitutto appare evidente come una simile infrastruttura abbia dei costi particolarmente elevati (peccato che nulla venga detto a proposito e che non sia nemmeno possibile fare ipotesi, non essendo noto il tipo di memoria adottato) ed anzi probabilmente fuori dalla portata della maggior parte delle biblioteche al mondo.
Ma quel che più conta è il ruolo strategico assunto dall’infrastruttura di storage: essa infatti funge da ponte imprescindibile tra passato, cioè i libri “analogici” posseduti, e futuro, ovvero la loro copia digitalizzata, la quale consentirà a) di “risparmiare” ai primi tutti quegli stress meccanici derivanti dall’uso nonché l’esposizione a fattori ambientali quali luce, (sbalzi di) umidità e temperatura, etc. b) di far godere, nel presente, questi capolavori ad una platea di pubblico potenzialmente molto più vasta rispetto a quella degli studiosi che solitamente ha la fortuna di consultarli.
Sarebbe stato bello, per concludere, sapere qualche dettaglio tecnico-operativo in più, ad esempio se chi si occuperà della gestione del sistema di storage (verosimilmente tecnici EMC) sarà sotto la sovrintendenza del Prefetto della Biblioteca Vaticana, monsignor Pasini o, in alternativa, quale tipo di controlli verranno messi in atto per assicurarsi che il sistema risponda a tutti i requisiti in termini di sicurezza ed operatività.
Non meno interessante sarebbe sapere dove effettivamente è localizzato il data center (e se esiste un sito secondario) così come se si fa ricorso al modello del cloud computing
Tante domande che non fanno che rafforzare la mia convinzione che le capacità di storage siano un asset strategico per le biblioteche.

Samsung Galaxy Camera ed i nuovi archivi fotografici

Samsung Galaxy Camera

Samsung Galaxy Camera

L’arrivo sugli scaffali dei principali negozi di informatica italiani della Samsung Galaxy Camera mi offre l’occasione per una veloce riflessione sullo stato degli archivi fotografici in questo cruciale momento di trapasso al digitale.
Prima però è opportuno presentare la nuova fotocamera digitale prodotta dallo chaebol sudcoreano dal momento che essa segna probabilmente un punto di rottura rispetto alle “macchinette fotografiche”, reflex o compatte che siano, sin qui realizzate. La Galaxy Camera infatti affianca ad un’ottica di tutto rispetto un altrettanto ricco lato software: attraverso lo schermo touch da 4,8 pollici è possibile interagire con il sistema operativo Android 4.1 Jelly Bean, ergo con tutte le applicazioni esistenti in questo ricchissimo ecosistema sia per il ritocco delle immagini stesse (cito qui il solo Instagram esclusivamente perché quello tra i più in voga del momento) sia per la loro immediata condivisione attraverso le proprie reti sociali. E quest’ultimo aspetto ci introduce alla vera novità della Galaxy Camera, vale a dire la presenza di connettività Wi-Fi e 3G la quale, si badi, ha un’utilità non solo, per così dire, “ludica” ma ne ha una molto più eminentemente pratica; a riprova del fatto che questa nuova fotocamera è fatta per restare sempre connessa (entrando a far parte a pieno titolo dell’Internet delle cose di cui tanto si parla), buona parte della memoria è allocata sulla cloud. A fronte di una memoria interna da 8 Giga (espandibile a 32 con scheda MicroSD / MicroSDHC) Samsung, che ha stretto un apposito accordo con Dropbox, ne mette a disposizione gratuitamente ben 50 sulla nuvola!
Il salto in avanti a mio modesto parere è netto e spiace che i puristi della fotografia abbiano perso di vista le novità di fondo fermandosi invece a rimarcare come, numeri alla mano, con i 549 euro necessari per aggiudicarsela si può comprare una reflex dalle caratteristiche tecniche (per quanto riguarda la sola ottica) decisamente superiori ed in definitiva bollando la Galaxy Camera come un costoso giocattolo che un “vero fotografo” mai si sognerebbe di usare.
Purtroppo mi pare che a costoro sfugga il non trascurabile dettaglio che oramai esiste un cospicuo numero di figure professionali (penso in special modo – ma non sono le uniche – a quelle legate al new journalism come blogger, live twitterer, storifyer senza dimenticare i più tradizionali giornalisti e fotoreporter free-lance!) che svolgono la loro attività attraverso l’uso di strumenti quali smartphone, tablet e per l’appunto foto/videocamere ai quali essi richiedono non tanto (o, per essere più precisi, non solo) le massime prestazioni possibili ma anche semplicità d’uso, affidabilità, poco ingombro… e naturalmente connettività.
Ma al di là dei risvolti di mercato la comparsa di device così concepiti ha naturalmente un impatto profondo sul modo in cui vengono a formarsi gli archivi fotografici digitali; cerchiamo di enucleare alcuni tra gli aspetti più rilevanti:
1) le foto digitali, prese come singularitas, divengono (paradossalmente) allo stesso tempo più instabili e “cangianti” rispetto alle parenti analogiche così come assai più “circostanziate” e ricche di informazioni. Alcuni semplici esempi presi dall’esperienza quotidiana rendono meglio l’uno e l’altro aspetto: mentre nel mondo analogico, trovandoci in presenza di un negativo e di un positivo fissati rispettivamente alla carta fotografica ed alla pellicola del rullino, le possibilità di “ritocchini” erano limitate ed opera perlopiù di esperti oggigiorno potenzialmente chiunque, attraverso appositi programmi (che partono dal livello amatoriale, dove consistono nell’applicazione di qualche filtro, ed arrivano ai programmi professionali per veri esperti), può alterarle. A fronte di questa possibilità praticamente universale di alterare la foto “originale”, si constata l’aumento della mole di dati che la corredano contribuendo a collocarla spazialmente e temporalmente: oramai di ogni foto scattata possiamo sapere in automatico non solo l’ora / data dello scatto e quale macchinetta abbiamo utilizzato ma persino il luogo in cui l’abbiamo fatta (georeferenziazione; per la Galaxy Camera tale dato verosimilmente deriva dall’incrocio dei segnali forniti dal Wi-Fi e dalla connessione cellualre) e chi abbiamo immortalato (in questo caso l’operazione di tagging avviene ancora in modo manuale). Insomma, una miniera di dati che, per inciso, qualora venissero resi anonimi e raggruppati in dataset e descritti con linguaggio RDF diventerebbero sicuramente utilissimi nell’ottica di un riuso all’insegna dei big (open) data! Del tutto opposta, ma purtroppo parimenti possibile, l’evenienza che di essi si faccia un uso “spavaldo” con palesi violazioni della privacy
2) l’instabilità è un tratto che caratterizza le fotografie digitali anche quando prese nel loro complesso, ossia nel loro essere “archivio”: questi ultimi infatti stanno seguendo, di supporto in supporto (CD-ROM, DVD, hard-disk, drive a stato solido, etc.), la stessa peregrinazione toccata in sorte a tutti gli altri tipi di file digitali ed ora stanno chiaramente prendendo la via della Nuvola, che come risaputo anche dal punto di vista tecnologico non è sicuramente infallibile (come provato, da ultimo, dall’uragano Sandy) né si può dire che una foto digitale sia molto più stabile delle ostiche pellicole in nitrato di cellulosa e meno bisognosa, negli anni, di pazienti cure! Insomma, la preservazione degli oggetti digitali e soprattutto la loro conservazione nel lungo periodo rimane un’incognita.
3) non lascia trascorrere sonni tranquilli neppure l’altro grande punto debole del modello cloud, ovvero quello attinente alla sfera legale e a quello, accennato poco sopra, della tutela della privacy; anzi, considerando l’elevata (ed immediata) sfruttabilità delle immagini, i rischi paiono essere persino superiori rispetto a quelli incombenti su altre tipologie di oggetti digitali! Instagram ad esempio, è notizia di questi giorni, dopo essere stata acquistata a suon di miliardi da Facebook ha annunciato la modifica unilaterale dei Termini di Servizio facendo paventare la possibilità di vendere a terzi le foto presenti nella piattaforma (peraltro senza assicurare alcun “ristoro” a chi quella foto l’ha caricata!) inclusa la possibilità di usarle all’interno di campagne pubblicitarie. Come prevedibile la notizia ha scatenato un putiferio tra gli utenti di Instagram, molti dei quali hanno annunciato di passare ad altri servizi come Flickr (qui in molti casi si tratterebbe di un ritorno…), Photobucket, Pinterest, Snapchat ed altri. Tra gli scontenti, a testimonianza dell’importanza che assumono questi archivi fotografici, pure National Geographic (la qualità dei cui reportage fotografici è universalmente riconosciuta), che conta sul network la bellezza di 660mila follower. Ovviamente Instagram è corsa ai ripari, ritrattando su tutta la linea ma oramai il danno era fatto, tanto più che molti utenti erano già indispettiti dalla cessazione del supporto a Twitter (fatto che risale invece alla settimana scorsa…). Insomma, la posta in palio attorno agli archivi fotografici del futuro prossimo venturo è elevata, come comprovato dal fatto che Twitter stesso ha reagito alla mossa di Instagram avviando il proprio servizio di hosting fotografico, dopo essersi appoggiato a lungo al citato Photobucket; se aggiungiamo che pure Flickr ha (ri)lanciato il guanto di sfida, mettendo a disposizione degli utenti (contestualmente al rilascio della sua nuova applicazione mobile) vari tool per ritoccare / modificare le foto, appare manifesto come sia in corso un autentico big game e spiace che anche in questo caso non esistano alternative pubbliche (o, perlomeno, frutto della collaborazione pubblico – privato) per chi vuole archiviare in modo sicuro le proprie foto.
Pare dunque, per concludere, segnato il destino degli archivi fotografici digitali: complice la proliferazione sul mercato di dispositivi connessi alla Rete capaci di scattare immagini (con la Galaxy Camera a rappresentare il punto più alto di questa “evoluzione”) e la presenza di operatori valutati milioni di dollari che realizzano applicazioni sulla nuvola per utenti sempre connessi e per organizzazioni che parimenti orientano sempre più il loro marketing (e talvolta il loro intero business) sulle nuove tecnologie, la loro destinazione finale è l’impalpabile cloud. Con tutto ciò che ne consegue, nel bene e nel male.

Gli archivi sulla nuvola alla prova dell’uragano Sandy

A quanto pare è destino che gli uragani fungano da banco di prova per gli archivi digitali: nel 1995 l’uragano Marilyn colpì violentemente le Isole Vergini provocando vittime e danni ad edifici tanto pubblici quanto privati: sulla scorta di quell’evento il National Media Lab redasse delle linee guida (una sintesi in italiano la trovate all’interno del volume “Memorie digitali: rischi ed emergenze”, pubblicato dall’ICCU nel 2005) su come minimizzare i danni in simili casi.
Alcuni dei consigli forniti allora mantengono appieno la loro validità (in particolare quelli su dove collocare fisicamente i sistemi di archiviazione ed i sistemi ed i supporti informatici contenenti dati, ovvero in piani che non siano il primo e l’ultimo ed in locali non affacciantesi sull’esterno) ma molti altri appaiono anacronistici ed evidenziano quanta strada abbia fatto la tecnologia in questi tre lustri e, di riflesso, quanto la nostra vita dipenda in modo sempre più stringente da quest’ultima.
Un esempio su tutti: 15 anni fa il NML suggeriva di scollegare dalla rete elettrica tutte le apparecchiature elettroniche e di impacchettarle in apposite buste di plastica mentre oggi la lotta con l’uragano Sandy si è giocata tutta, al contrario, proprio sul riuscire ad evitare di finire offline! Del resto all’epoca l’ipotesi di “vivere senza Internet” ed i vari dispositivi tecnologici ad essa collegati per alcuni giorni non sollevava particolari problemi, a differenza di oggi dove la cosa sarebbe vissuta come una tragedia!
Non è dunque un caso se siti e blog nordamericani hanno fatto a gara a raccontare, praticamente minuto per minuto, quali e quanti data center (con relativi servizi) “andavano giù”; molti commentatori infatti hanno sottolineato come fosse, quella presente, una prova del nove della sostenibilità del modello del cloud computing (con annesso servizio di archiviazione) il quale ha come imprescindibile corollario l’essere always on.
Come spesso accade non c’è unanimità sul fatto che la prova sia stata superata o meno: come mostra l’analisi di Renesys (sintetizzata nel video qui sopra) in termini percentuali appena il 10% dei network dell’area di New York sono rimasti colpiti anche se, aggiunge poco sotto la stessa società, considerando la densità di reti è come se l’intera Austria si fosse bloccata, il che non è esattamente una cosa da niente!
Vittime di Sandy, del resto, sono stati anche servizi di primo piano come Gawker (che annovera tra i suoi siti pure il tecnologicissimo Gizmodo!) ed il celeberrimo Huffington Post, tutti “ospitati” nei server della newyorkese Datagram Inc. che, nel momento in cui scrivo, ha da poco terminato di svuotare i propri locali dall’acqua ed opera dunque ancora in regime di piena emergenza.
L’acqua infatti, oggi come per gli archivi cartacei dei secoli passati, si è rivelata ancora una volta essere la minaccia principale: evidentemente molti data center erano fisicamente collocati in locali non idonei (vuoi vedere che macchinari dal valore complessivo di centinaia di migliaia di dollari sono finiti negli scantinati?!) o comunque senza tener conto di possibili criticità idrauliche (l’agglomerato urbano di New York in definitiva sorge su più isole ed è attraversato da grossi fiumi come l’Hudson e l’East River).
Sono stati proprio gli allagamenti diffusi, una volta che la Conedison (la società energetica che serve New York; n.d.r.) ha interrotto l’erogazione di corrente, ad impedire ad un gran numero di generatori ausiliari di entrare in azione! Ma va tenuto presente che anche nei casi in cui i generatori sono correttamente entrati in funzione si è palesata la limitatezza dell’autonomia vuoi perché le scorte non erano sufficienti (le 48 – 72 ore di norma previste sono risultate troppo poche per un’emergenza di questa portata) vuoi perché gli stessi serbatoi erano finiti in ammollo. Questo ha costretto molti tecnici ad un’affannosa ricerca per la città di pompe di benzina per sopperire alla carenza del prezioso carburante! Su “The Verge” Adrianne Jeffries ha spiegato con dovizia di particolari un’emergenza tipo, con i tecnici sistemisti che, una volta riempite le taniche, hanno dovuto travasare a mano il loro contenuto nei serbatoi dei generatori operando in ambienti invasi da un misto di acqua, carburante e rifiuti.
Un’altra criticità chiaramente emersa, e che deve far profondamente riflettere, riguarda poi la collocazione geografica dei centri secondari di back-up e ripristino: è evidente che se i succitati servizi sono andati giù ciò è dipeso dal fatto che non solo i siti primari ma anche quelli secondari hanno fatto cilecca. Difatti è emerso che molti di questi siti secondari si trovano nel vicino New Jersey (vicino in senso relativo; è più o meno come se un’azienda di Milano avesse il suo sito secondario nei pressi di Bologna…), investito anch’esso dalla furia di Sandy.
Ovviamente non tutto è filato storto, anzi, prendendo per buona e rigirando la statistica citata all’inizio si può a buon diritto affermare che nel 90% dei casi le procedure ed i sistemi d’emergenza hanno funzionato a dovere (qui alcuni esempi). Pertanto mi sembra si possa tranquillamente affermare che complessivamente il “modello cloud computing” abbia retto all’urto e che anzi esso, se sarà capace di metabolizzare le lessons learned ovvero:
1) porre serbatoi, generatori e sale macchine in zone al riparo dagli allagamenti,
2) costruire i centri secondari di ripristino a debita distanza dal primario, sacrificando magari qualche frazione di secondo in fatto di tempi di latenza,
potrà, almeno dal punto di vista tecnologico, divenire davvero un modello altamente affidabile tale da assicurare un elevato grado di sopravvivenza ai nostri archivi digitali sulla nuvola.
Certo, resta il problema di fondo della dipendenza assoluta dall’energia elettrica, ma questo è un limite generale della nostra società e personalmente non vedo soluzioni soddisfacenti all’orizzonte (la diversificazione, magari puntando sulle rinnovabili, al momento non è che un palliativo) e pertanto lo lascerei fuori dal dibattito fin qui fatto.
Va infine sottolineata l’eccezionalità, relativamente alle aree geografiche interessate, del fenomeno meteorologico in oggetto ed anzi c’è da domandarsi (ma qui mi rendo perfettamente conto che entriamo nel campo della pura speculazione): quanti archivi, digitali ed analogici, sarebbero sopravvissuti se un’emergenza simile si fosse verificata in Italia?

%d blogger hanno fatto clic su Mi Piace per questo: