archivio | Memoria digitale

Posts Tagged ‘archivio’

10 Feb

Hardware: conservare o gettare?

Posted by Simone Vettore in Uncategorized. Tagged: archivio, conservazione, digitale, emulazione, hardware, HSM, Interpares, metadati tecnici, migrazione, museo dell'informatica, NAS, RAID, storage. Lascia un commento

New PC di XiXiDu, su Flickr

Essendo l’argomento un po’ eretico, spero che le mie professoresse dei tempi dell’università non leggano mai questo post perché probabilmente balzerebbero dalla sedia e si pentirebbero di avermi promosso agli esami! Ciò nondimeno, dopo un paio di settimane che ci rifletto sono giunto alla conclusione che l’argomento merita di essere reso pubblico e dunque eccomi qua. Il quesito che pongo (e mi pongo) è il seguente: siamo così sicuri che anche l’hardware, soprattutto quello che si occupa della memorizzazione ed immagazzinamento dei dati, non vada conservato?
Mi spiego meglio. I vari InterPARES (la fase tre è tuttora in corso e dovrebbe terminare quest’anno) hanno evidenziato come in termini generali la conservazione permanente di documenti elettronici sia possibile solo se si dispiegano adeguate risorse, si seguono determinate procedure e si adotta un approccio dinamico e flessibile tale da adattare le diverse strategie conservative a seconda delle evoluzioni future.
Per quanto queste indicazioni tendano volutamente ad assumere il valore di enunciazione di principi generali, nel concreto una certa preferenza è stata accordata alla metodologia della migrazione (vale a dire il passaggio da vecchie a nuove piattaforme tecnologiche man mano che le prime diventano obsolescenti) purché essa avvenga all’interno di sistemi in grado di assicurare autenticità, affidabilità, etc. ai documenti migrati; inoltre è previsto che i documenti vengano conservati e migrati assieme ai relativi metadati, con questi ultimi deputati a fornire le indispensabili informazioni di contesto.
Come strategia alternativa InterPARES suggerisce l’emulazione, ovvero il far “girare” all’interno di ambienti tecnologici software altrimenti non funzionanti e con essi i rispettivi documenti; l’emulazione, dal momento che non comporta la modifica della sequenza binaria dei documenti rappresenterebbe l’optimum, peccato che sia costosa e che ponga non indifferenti difficoltà tecniche.
In tutto questo l’hardware trova scarso spazio nelle riflessioni teoriche, per quanto la sua obsolescenza sia perfettamente nota (oltre che evidente a tutti coloro che possiedono un qualsivoglia gingillo tecnologico); di norma ci si ricorda che esso esiste (specificatamente al tema della conservazione): 1) allorquando si deve decidere su quali supporti e/o sistemi puntare per lo storage di breve – medio respiro (nastro, disco ottico, disco rigido esterno, NAS, RAID, etc.) 2) nel momento in cui esso sta per arrivare alla fine della propria “carriera” e si propone di creare un “museo dell’informatica” con il compito di tenere operative quelle macchine senza le quali i relativi SW (con annessi dati e documenti) diventano inutili / inutilizzabili.
In realtà mi sto convincendo sempre più che conservare l’hardware, o in subordine una dettagliata documentazione sul tipo di infrastruttura posseduta, sia di notevole importanza per comprendere appieno il valore attribuito a specifici materiali, nonché il contesto e la “stratificazione” dell’archivio del soggetto produttore. Alcuni banali esempi renderanno più chiara la mia posizione.
Prendiamo il caso di un’impresa: se essa è previdente, provvederà a duplicare (ed in taluni casi a moltiplicare) quei dati e documenti ritenuti più critici e che non può assolutamente permettersi di perdere; similmente essa potrebbe decidere di allocare i dati considerati importanti in partizioni più prestanti della propria infrastruttura HW e viceversa per quelli meno importanti (è questo il caso tipico dei sistemi HSM; Hierarchical Storage Management). Il ragionamento è valido anche per il singolo individuo (= archivi di persona): l’adozione di particolari strategie conservative (backup sistematici su dischi rigidi esterni oppure sulla nuvola) così come la scelta di attribuire maggior protezione a specifici dati e documenti può aiutare a comprendere a quali di essi il produttore accordasse maggior valore. Ma non finisce qua! La conoscenza delle modalità di storage / conservazione può aiutare a chiarire aspetti relativi al modus operandi del soggetto produttore oltre che dare una spiegazione alla presenza, altrimenti non comprensibile, di varianti dello stesso documento: tipico il caso del documento A conservato nell’hard disk e del documento A-bis (leggermente diverso) conservato in una cartella public accessibile a più persone e frutto di un lavoro collettivo. Ovvio che se non sappiamo da dove proviene A e da dove proviene A-bis potremmo essere tentati di attribuire la differenza tra i due (tecnicamente il “mancato allineamento”) ad un back-up di aggiornamento fallito, perdendo così importanti informazioni sulla genesi del documento stesso (per un file di testo pensiamo alle diverse stesure) nonché alla sua “stratificazione”.
Da ultimo, la stessa analisi del tipo di hardware adoperato fornisce informazioni utili: il ricorso a materiale non consumer ad esempio indica ipso facto attenzione e sensibilità per le problematiche della conservazione!
Alla luce di quanto esposto credo appaia evidente a tutti come approfondire la conoscenze del tipo di infrastruttura di storage approntata dal soggetto produttore sia un’opera tutt’altro che infruttuosa ma capace di fornire informazioni aggiuntive sul contesto di riferimento e soprattutto di attribuire un valore qualitativo a dati e documenti che nel mondo digitale siamo in genere soliti considerare in termini meramente quantitativi.
Concretamente tale obiettivo è raggiungibile, al di là della provocazione iniziale di “conservare l’hardware” (compito oggettivamente improbo) ampliando la nozione di “metadato tecnico” ed inserendo alcuni campi e tag capaci, per l’appunto, di descrivere quella miniera di informazioni preziose che risulta essere l’hardware; insomma, la possibilità di fare qualcosa in questa direzione c’è, adesso tocca agli “iniziati” dei linguaggi di marcatura mettersi all’opera.

15 Ott

Archivi in the cloud

Posted by Simone Vettore in Uncategorized. Tagged: Antonio Romiti, archivi in cloud computing, archivi sulla nuvola, archivio, archivistica informatica, chenxi wang, cloud computing, forrester, hybrid cloud, iaas, PaaS, private cloud, public cloud, rinaldo marcandalli, saas, storage, storage online, vincolo archivistico, vincolo impuro. 4 commenti

Server farm (foto MrFaber)

PREMESSA

Più volte in questo blog ho fatto riferimento al cloud computing ed alle sue ricadute archivistiche (e biblioteconomiche). Dal momento che non mi sembra ci sia molta chiarezza a riguardo, provo a farne un po’ io, in particolare spiegando cos’è questo fantomatico paradigma tecnologico e cosa si intende dire quando si afferma che “un archivio va sulla nuvola”.

DEFINIZIONE

Partiamo dall’inizio: la definizione di cloud computing è assai eterogenea e ne esistono più declinazioni, personalmente trovo che quella fornita da Rinaldo Marcandalli sia una delle più esaurienti, ovvero: “un insieme (o combinazione) di servizi, software e infrastruttura It offerto da un service provider accessibile via Internet da un qualsiasi dispositivo. Tutto si traduce in offerta di servizio, che in funzione dell’entità erogante può essere categorizzata in quattro generi: basata sul Web (il genere Rich Internet application da Flickr a Microsoft Office Live); Software as a Service o Saas (applicazioni accessibili Internet e customizzabili come Gmail e Salesforce.com); Platform as a Service o Paas (esempi classici le piattaforme Force.com e Google App Engine); Infrastructure as a service o Iaas (servizi infrastrutturali di capacità di elaborazione virtualizzata tipo Amazon Elastic compute cloud o Ec2, o di hosting di server virtualizzati o di utilità storage; importante osservare che Iaas può venir erogata da un data center pubblico o privato)”.
Si noterà che molti degli esempi riportati da Marcandalli non rappresentano novità assolute, al contrario riguardano servizi noti al grande pubblico; in effetti il tratto distintivo di un servizio in cloud computing non dipende tanto dal suo livello di innovatività ma piuttosto dalla modalità di erogazione (in questo senso i requisiti di scalabilità e personalizzazione sono essenziali).

GLI ARCHIVI SULLA NUVOLA

Come si sarà evinto dalla lettura della definizione appena data, all’interno della tipologia definita come IaaS vi è la precisa funzione di “utilità storage“, che è quella qui di nostro principale interesse e che andrò ora ad analizzare (da notare bene che per il soggetto erogante tale servizio si colloca a livello infrastrutturale mentre per il client si tratta di accedere ad un servizio basato online, ovvero ricadente all’interno di una delle due prime categorie a seconda del grado di customizzazione). In soldoni si tratta della possibilità, per individui ed organizzazioni pubbliche e private, di “archiviare” i propri dati e documenti all’interno di server remoti sui quali in genere NON SI HA alcun controllo. Se fino a ieri dunque la destinazione di questi dati erano le varie unità di archiviazione di massa di tipo generalmente magneto-ottico (dagli hard disk esterni ai juke box di CD/DVD, passando per tape library e via discorrendo) di proprietà, oggi essi finiscono in server residenti in luoghi talvolta non geograficamente determinati, aspetto che rende il ricorso al termine “nuvola” del tutto calzante ma che pone nel contempo numerosi problemi pur a fronte di alcuni innegabili vantaggi.

I VANTAGGI

Abbracciare il modello del cloud computing garantisce alcuni innegabili vantaggi per coloro (privati ed organizzazioni) che effettuano questa scelta: a) essi hanno il vantaggio economico e “gestionale” di non dover più preoccuparsi di comprare e, per l’appunto, gestire, lo spazio di memoria necessario a contenere i propri dati e documenti (si tratti del disco rigido esterno da poche decine di euro o del server da qualche migliaio, la sostanza non cambia) b) in linea di principio i propri dati e documenti vengono messi al riparo dai rischi di perdita, corruzione, cancellazione, etc. (poi anche le server farm possono andare a fuoco, ma su questo meglio sorvolare…) c) caricare i propri dati e documenti sulla nuvola è in linea con l’evoluzione che sta interessando il modo di organizzare l’attività lavorativa nonché la gestione delle risorse umane: lavoro in condivisione e senza l’obbligo di trovarsi fisicamente in uno specifico ufficio o sede di lavoro, in quanto vi si può accedere attraverso molteplici dispositivi (tablet, notebook, netbook, smartphone, etc.). Il risultato ultimo di tutto ciò è non solo una ridefinizione dei carichi individuali e dei flussi di lavoro (inclusi quelli documentari), ma pure un aumento nella circolazione di idee, della conoscenza collettiva e (si spera) della produttività.

I PROBLEMI

Nella definizione data da Marcandalli si parla di “utilità di storage”, anche se è invalso l’uso del termine di “archivi sulle nuvole” come suo sinonimo, benché qualunque archivista abbia perfettamente presente come quest’uguaglianza sia ben lungi dal corrispondere al vero! Come bisogna dunque considerare questi servizi? Come meri “depositi” oppure come archivi? Una veloce analisi di un campione di essi basta ed avanza per evidenziare carenze tanto dal punto di vista teorico quanto da quello pratico, tali da far propendere indubbiamente per la prima opzione.
Dal punto di vista teorico semplicemente non è possibile parlare di archivio, dal momento che il client sceglie (con modalità differenti da servizio a servizio) quali dati e documenti caricare sulla nuvola sicché si viene a creare una completa discrasia tra l’archivio presente in locale e quello in remoto cosa che a sua volta fa venir meno la necessaria organicità oltre che il fondamentale concetto di vincolo archivistico (e qui non mi sto riferendo al tradizionale vincolo puro, ma al concetto “nuovo” di vincolo impuro sviluppato in ambito di archivio informatico da autori come Antonio Romiti!). A rafforzare un tale drastico giudizio contribuisce poi la mancanza de facto di un contesto così come l’assenza di una profondità temporale (di norma i documenti sono datati solamente a partire dal momento dell’upload, con un evidente effetto distorsivo).
Non meglio vanno le cose se si esaminano tali servizi per quanto riguarda il profilo tecnico e legislativo; infatti, usando come criteri di valutazione quelli suggeriti da Chenxi Wang in un interessante report redatto per Forrester (peraltro sovrapponibile in molti punti alle MOIMS-RAC stilate dal Consultative Committee for Space Data Systems), i servizi in analisi risultano quanto meno carenti circa i seguenti aspetti: 1) integrità dei dati uploadati non garantita, con risarcimenti nulli o irrisori in caso di loro perdita 2) loro residenza ignota (spesso le aziende si giustificano asserendo che il non rivelare l’ubicazione dei data center fa parte della stessa politica di sicurezza e prevenzione) 3) salvo rari casi, non viene esplicitato in alcun modo il tipo di architettura adottata (ad es. RAID3, 4, etc.) così come gran pochi cenni si fanno alle politiche in fatto di disaster prevention, business continuity e le relative misure adottate (e questo è paradossale, essendo proprio il desiderio di cautelarsi da simili evenienze a spingere molti CIO ad adottare il modello del cloud computing… in pratica a volte si abbandona il noto per l’ignoto!) 4) assenza di audit, con il risultato che talvolta è impossibile stabilire chi e quando “ci ha messo le mani” e su quali e quanti di questi dati e documenti 5) scarsi e/o generici riferimenti alle leggi di riferimento in tema di privacy, etc.

LE SOLUZIONI

Anche alla luce di molte di quelle problematiche individuate nel precedente paragrafo si sono cercati dei correttivi tali da far accettare il modello cloud anche ai responsabili delle strutture informatiche più restii, senza però che tali correttivi togliessero quegli elementi di indubbio vantaggio. A riguardo, essendo uno degli aspetti più critici (e criticati) quello della sicurezza (fisica e “intellettuale” dei dati e documenti caricati), molte organizzazioni stanno creando delle private cloud, ovvero delle infrastrutture tecnologiche che ricalcano i medesimi principi di una “normale” nuvola (definita per distinguerla dalla precedente public cloud) ma che sono usate esclusivamente dalle organizzazioni stesse che le realizzano. Così facendo si godono dei vantaggi elencati e si annullano per contro gli aspetti negativi; l’unico neo è che una simile opzione è praticabile solo da realtà grosse e dotate del necessario capitale finanziario, umano e tecnologico mentre quelle più piccole ed i singoli individui non potranno che affidarsi a quello che c’è sul mercato! A questi ultimi, dunque, non resta altro che cercare di contrattare con il fornitore servizi il più possibile vicini ai propri desiderata.
Un’altra strada percorsa è quella seguita da Amazon con il governo degli Stati Uniti, con la prima che ha “riservato” al secondo una cloud specifica ed ottemperante ai particolari e più restrittivi requisiti del “cliente” Federale.
Dal momento che non tutti hanno il peso contrattuale del governo statunitense, sono state poi trovate ulteriori soluzioni intermedie, com’è il caso delle cosìdette hybrid cloud, che come suggerisce il nome presentano elementi dell’una e dell’altra soluzione.

LE PROSPETTIVE

Dando credito alle previsioni delle principali società di analisi e ricerca del mercato, il futuro del cloud computing è roseo: secondo Gartner il suo giro d’affari complessivo nel 2010 si è attestato attorno ai 68 miliardi di dollari. Il peso complessivo dello storage all’interno di questo settore è preminente ed assicurerebbe quasi la metà degli introiti. E che “gli archivi sulla nuvola” siano un business che porta guadagni lo confermano gli stessi operatori. La statunitense Dropbox è quotata attorno ai 4 miliardi di dollari e persino in Italia Telecom, che ha lanciato “Nuvola Italiana”, lo ha definito un “business profittevole”! Se dunque sembra proprio che dovremo abituarci alla prospettiva che i nostri “archivi” finiscano sulla nuvola, possiamo almeno sperare che intervengano alcuni fattori correttivi di questi servizi. Ad esempio l’inserimento di metadati rappresenterebbe già un notevole passo in avanti, così come la partecipazione degli archivisti nella fase di progettazione delle private cloud che sicuramente le Pubbliche Amministrazioni vorranno realizzare sarebbe un altro aspetto sicuramente positivo. In generale, poi, vale la raccomandazione di leggere attentamente i “Termini & Condizioni” del servizio e cercare di valutare l’affidabilità della soluzione tecnologica proposta (l’assenza di specifiche tecniche sulle quali poter effettuare valutazioni è di suo un elemento negativo!), personalizzandoli ove possibile.

CONCLUSIONI

Da quanto scritto si capisce come negli “archivi sulla nuvola” vi sia la compresenza di aspetti positivi e negativi; nell’attesa che anche questi servizi maturino (e nella convinzione che ciò equivarrà ad un loro miglioramento) credo stia all’utilizzatore finale discriminare tra buoni e cattivi servizi. In altri termini il buon senso come principio guida è l’unico mezzo per non rimanere “scottati” da una parte e perdere il treno dell’innovazione tecnologica dall’altra perché, credo di non essere troppo enfatico sostenendo ciò, il futuro degli archivi passa anche dalla nuvola.

Per la versione su Storify con puntuali riferimenti a documenti e notizie alla base di questo post cliccate qui.

Memoria digitale Tendenze e problemi in archivi e biblioteche (e tutto ciò che vi ruota attorno)

Posts Tagged ‘archivio’

Hardware: conservare o gettare?

Articoli recenti

Aggiornamenti Twitter

Memoria digitale Tendenze e problemi in archivi e biblioteche (e tutto ciò che vi ruota attorno)

Posts Tagged ‘archivio’

Hardware: conservare o gettare?

Condividi:

Archivi in the cloud

Condividi:

Mind erased

Condividi:

Articoli recenti

Aggiornamenti Twitter