Con Glacier anche gli archivi storici vanno sulla nuvola

Inside the library

Inside the library di muegyver, su Flickr


LA NOTIZIA

Non sarà passato inosservato ai più l’annuncio, dato da Amazon qualche settimana fa, del lancio di Glacier, servizio di archiviazione sulla nuvola appositamente pensato per quei dati / documenti digitali oramai “vecchi” e poco utilizzati ma dei quali per svariati motivi (prescrizione legislativa, ragioni di opportunità e convenienza, etc.) è prevista la conservazione nel lungo periodo.
Come spiegato in un post di Werner Vogels, CTO di Amazon, il servizio si rivolge ad un pubblico eterogeneo: si spazia dalle grandi aziende alle PMI, passando naturalmente per le giovani e dinamiche start up, senza ovviamente dimenticare gli enti di ricerca, i governi, le aziende sanitarie, le media company, le biblioteche, etc.
A tutti costoro Amazon propone di sottoscrivere un contratto sicuramente aggressivo ed “accattivante”: appena 0,01 dollari per Gigabyte al mese (0,011 qualora come data center di riferimento si scelga quello irlandese) purché non si “movimenti” più del 5% di quanto caricato o non lo si cancelli entro 90 giorni dall’upload; in tale evenienza Amazon applica una tariffa che parte da 0,011 GB nel primo caso e fissa di 0,033 nel secondo (per ulteriori dettagli sul piano tariffario rimando a questa pagina). L’intento è chiaro, ovvero disincentivare gli utenti a fare un uso “improprio” di Glacier che, per l’appunto, è dedicato all’archiviazione (caratterizzata da un relativamente minor numero di operazioni di recupero) e non allo storage di breve respiro; a fungere da ulteriore deterrente a comportamenti “da furbetti”, oltre alla tariffazione, è il tempo stesso impiegato per l’operazione di estrazione dei dati / documenti richiesti, mediamente quantificato in 5 ore!

LE REAZIONI

Dal momento che la stessa Amazon, in linea con tutte le “novità” che gravitano attorno al cloud computing, ha impostato la sua proposta puntando sull’elemento cost-effectiveness, non deve sorprendere che il dibattito sui siti e blog specializzati si sia sviluppato con l’obiettivo preciso di confutare o meno la convenienza del nuovo servizio omettendo quasi del tutto di chiedersi se esso, al di là della dimensione economica, risponda realmente alle esigenze di archiviazione: è banale sottolinearlo ma gli eventuali risparmi ottenibili da soli non giustificano il passaggio ad un diverso sistema di archiviazione, soprattutto qualora quest’ultimo non sia archivisticamente valido almeno quanto quello che si abbandona! Ciò nondimeno, anche alla luce delle perduranti ristrettezze economiche, credo sia utile sintetizzare le posizioni dei due schieramenti, rimandando ai paragrafi successivi per una trattazione più dettagliata delle caratteristiche squisitamente archivistiche di Glacier e delle problematiche sollevate.
I detrattori del nuovo servizio di Amazon si sono sforzati, conti alla mano, di dimostrare come esso non sia competitivo rispetto alle librerie di nastri che vorrebbe pensionare dal momento che costa circa 10 volte tanto (soprattutto in presenza di archivi di notevoli dimensioni; siamo sull’ordine delle decine di Petabyte, n.d.r.). Se da Amazon si sono affrettati a rispondere che per vedere i risparmi bisogna (giustamente a mio avviso, dal momento che stiamo parlando di archiviazione nel lungo periodo) fare proiezioni di spesa che vadano oltre i 5 anni, altri analisti hanno rilevato come i sostenitori delle tape library abbiano omesso di mettere in conto alcune voci di spesa non esattamente irrilevanti, come quelle derivanti dalla necessità di allestire un sito secondario di ripristino oppure ancora una buona quota di quelle di manutenzione e di gestione (e come ben sintetizza Enrico Signoretti, quel che conta è il TCO e non il TCA, vale a dire il costo totale di possesso e non quello di acquisto!); morale della favola, aggiungendo queste ulteriori voci di spesa le soluzioni finiscono per l’equivalersi ma con il vantaggio innegabile, per coloro che si affidano a Glacier, di venir “affrancati” da ogni incombenza diretta sulla materia e soprattutto con la certezza di non venire mai a trovarsi nella poco invidiabile situazione di essere dotati di infrastrutture vuoi sottodimensionate vuoi sovradimensionate (origine nel primo caso di sprechi e di inefficienze, nel secondo di onerosi upgrade); con Glacier, così come con tutti gli altri servizi ispirati al modello del cloud computing, si paga infatti solo in base all’effettivo consumo (pay-as-you-go) con la possibilità di scalare verso l’alto o verso il basso a seconda delle esigenze.

OSSERVAZIONI DI NATURA TECNICA

Come accennato poc’anzi uno dei tratti salienti di Glacier è l’abbandono del nastro magnetico come supporto principe (e low cost!) per l’archiviazione di massa di lunga durata; sollecitata a dare delucidazioni sulle soluzioni tecnologiche adottate, Amazon ha confermato attraverso un portavoce che “essentially you can see [Glacier] as a replacement for tape” che gira su “inexpensive commodity hardware components” (verosimilmente, chiosa l’autore dell’articolo, si tratta di un “very large storage arrays consisting of a multitude of high-capacity low-cost discs”).
Si tratta di una informazione di non poco conto dal momento che si abbandonano i nastri, con la loro lenta memoria ad accesso sequenziale (in sostanza per accedere ad un determinato dato occorre percorrere tutto il nastro a partire dall’ultimo punto cui si era acceduti), in luogo delle più performanti memorie ad accesso diretto: peccato che ciò sia vanificato dai lunghi tempi di latenza (circa 5 ore) entro i quali Amazon garantisce il recupero. Insomma, un servizio low cost ma anche very slow!
Per il resto viene ovviamente posto l’accento sulla ridondanza delle copie: ogni dato viene archiviato in più strutture ed in più dispositivi all’interno della singola struttura, al punto che si garantisce, come anzidetto, la durabilità annuale del 99.999999999% con periodiche, rigorose operazioni di verifica dell’integrità dei dati medesimi.

OSSERVAZIONI DI NATURA ARCHIVISTICA

Dal punto di vista archivistico con Glacier viene fino ad un certo punto ricostituita sulla nuvola l’unitarietà fisica e logica dell’archivio: giusto per restare in casa Amazon se su Amazon Web Services (AWS) va la parte corrente su Glacier va quella storica con la prospettiva, come ricordato da Vogels nel post citato, che in un prossimo futuro le due parti possano dialogare pienamente con il trasferimento dall’una una all’altra.
Ma oltre a questa premessa di cappello ci sono altre considerazioni archivistiche da fare; vediamo in modo un po’ più articolato:
1) poche righe sopra scrivevo che viene a ricrearsi l’unità dell’archivio “fino ad un certo punto”: questa precisazione perché non esiste ad oggi una soluzione intermedia per la fase di deposito né è dato sapersi se mai esisterà! Oramai infatti il cambiamento di status tra le varie fasi, al di là di alcuni aspetti giuridici (ad esempio il passaggio di responsabilità dai responsabili dei vari uffici a quello della conservazione), si risolve dal punto di vista “fisico” nell’allocazione dei dati / documenti in device sempre più omogenei e che differiscono, come ben esemplificano i prodotti di Amazon, “solo” per diverse scelte architetturali e per il livello di prestazioni
2) le cinque ore di tempo di latenza entro il quale Amazon assicura il recupero dei dati e la possibilità di effettuarne il download sono oggettivamente troppi: per anni si è scritto che l’avvento del digitale avrebbe garantito una fruizione universale ed istantanea degli archivi storici, favorendone nel contempo la valorizzazione, ed ora ci si dovrebbe accontentare di un tempo di recupero mediamente assai superiore rispetto a quello occorrente in un Archivio di Stato per vedersi consegnata la busta (cartacea) richiesta?!
Mi si potrà obiettare che non necessariamente i dati / documenti devono essere accessibili al pubblico ed inoltre che, in linea con l’Hyerarchical Storage Management (HSM), è sempre possibile allocare quei dati / documenti “di valore” negli storage device più prestanti, ma ciò vuol dire non tener conto di quanto ultimamente si va dicendo in fatto di big data =>
3) riguardo a quest’argomento assai in voga io stesso in un post di qualche mese fa ho evidenziato come, alla luce degli usi e riusi inaspettati che si fanno (e si faranno sempre più) degli open (linked) data, il relativo life-cycle stia mutando: meno picchi ma al contrario un uso più costante e prolungato nel tempo e soprattutto con numeri di istanze mediamente più elevati. In buona sostanza, considerando che Amazon stessa indica tra i vari scenari applicativi quello degli open data (i quali praticamente per definizione non si sa se, come, quando e da chi verranno utilizzati), non è sensato far aspettare un eventuale ricercatore per ore ed ore! Questo aspetto ci introduce al punto seguente =>
4) il mutato ed imprevedibile data life-cycle dei giorni nostri, al contrario di quello “scontato” che l’ha preceduto (caratterizzato da alto uso durante la fase attiva e poi istanze man mano decrescenti nella fase passiva), rende ovviamente più difficile l’individuazione, che giocoforza deve essere effettuata a priori, di quali dati caricare e conseguentemente delle soluzioni di archiviazione più idonee. Del resto questo problema rimanda a quello più amplio della discrezionalità (in assenza di strumenti avvicinabili al massimario di selezione e scarto), circa cosa caricare e ai conseguenti rischi di rottura del vincolo archivistico
5) critici pure alcuni aspetti denunciati da Andrea Rota (che ha avuto modo di provare Glacier) sul suo blog personale: a prescindere dal fatto che le “operazioni di upload e download possono essere effettuate solo tramite la programmazione delle API di Amazon” (quindi in modo non immediato), Rota sottolinea che “come già avviene per altri servizi di storage di Amazon, i file caricati perdono il loro nome originale, che viene sostituito con una lunga stringa alfanumerica”, motivo per cui “se si vuole tracciare l’associazione fra nome e stringa identificativa, ad esempio per ricercare i file per nome, è necessario mantenere un indice esterno a Glacier oppure usare i metadati associati agli archivi”. Pare dunque di capire che, in assenza di adeguate cautele, vi sia l’elevato pericolo di perdita dei legami esistenti tra i vari dati / documenti.

OSSERVAZIONI DI NATURA LEGALE

Non meno importanti gli aspetti di natura legale sulla valutazione complessiva del servizio: valgono infatti in toto le considerazioni fatte a suo tempo per i servizi di storage sulla nuvola. Non a caso l’uso di Glacier è soggetto al medesimo contratto che regolamenta Amazon Web Services (si veda a riguardo AWS Customer Agreement) ed in particolare, tra le tante, vige la seguente condizione (punto 11; i grassetti sono miei, n.d.r.):

WE AND OUR AFFILIATES OR LICENSORS WILL NOT BE LIABLE TO YOU FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, CONSEQUENTIAL OR EXEMPLARY DAMAGES […], EVEN IF A PARTY HAS BEEN ADVISED OF THE POSSIBILITY OF SUCH DAMAGES. FURTHER, NEITHER WE NOR ANY OF OUR AFFILIATES OR LICENSORS WILL BE RESPONSIBLE FOR ANY COMPENSATION, REIMBURSEMENT, OR DAMAGES ARISING IN CONNECTION WITH: (A) YOUR INABILITY TO USE THE SERVICES, INCLUDING […] (II) OUR DISCONTINUATION OF ANY OR ALL OF THE SERVICE OFFERINGS, OR, (III) WITHOUT LIMITING ANY OBLIGATIONS UNDER THE SLAS, ANY UNANTICIPATED OR UNSCHEDULED DOWNTIME OF ALL OR A PORTION OF THE SERVICES FOR ANY REASON, INCLUDING AS A RESULT OF POWER OUTAGES, SYSTEM FAILURES OR OTHER INTERRUPTIONS; […] (D) ANY UNAUTHORIZED ACCESS TO, ALTERATION OF, OR THE DELETION, DESTRUCTION, DAMAGE, LOSS OR FAILURE TO STORE ANY OF YOUR CONTENT OR OTHER DATA. IN ANY CASE, OUR AND OUR AFFILIATES’ AND LICENSORS’ AGGREGATE LIABILITY UNDER THIS AGREEMENT WILL BE LIMITED TO THE AMOUNT YOU ACTUALLY PAY US UNDER THIS AGREEMENT FOR THE SERVICE THAT GAVE RISE TO THE CLAIM DURING THE 12 MONTHS PRECEDING THE CLAIM

Condizioni, si intende, che definire sbilanciate è un eufemismo e che peraltro stridono con le numerose rassicurazioni date in ordine all’affidabilità tecnica (si veda il 99.999999999% di durabilità media annuale): non ha senso da un lato promettere mari e monti e dall’altra declinare praticamente ogni responsabilità impegnandosi a risarcimenti spesso irrisori!

CONCLUSIONI

Tirando le somme, Glacier è sicuramente interessante in quanto costituisce il primo esempio di servizio sulla nuvola pensato per la conservazione permanente di dati e documenti digitali, questi ultimi in prospettiva “raccordati” pure con la parte corrente; è questa probabilmente l’unica nota positiva assieme al pricing aggressivo (che indubbiamente costituisce un ottimo biglietto da visita) giacché è bastata la veloce analisi alla quale ho sottoposto il nuovo servizio made in Seattle per evidenziare come esso patisca le consuete “tare”: discrezionalità su cosa caricare con conseguente rischio di rottura del vincolo, assenza di metadati (la cui presenza dipende dalla buona volontà di chi carica i dati), termini legali insoddisfacenti, cui si aggiungono un tempo di latenza imbarazzante e la vexata quaestio se sia o no un vantaggio affidare a terzi la gestione dei propri archivi digitali (o più correttamente delle infrastrutture sulle quali questi risiedono). Come saprete ritengo che almeno le istituzioni pubbliche dovrebbero farsi carico di queste incombenze ma a vedere il trend sono in minoranza…

Lascia un commento

Inserisci i tuoi dati qui sotto o clicca su un'icona per effettuare l'accesso:

Logo WordPress.com

Stai commentando usando il tuo account WordPress.com. Chiudi sessione / Modifica )

Foto Twitter

Stai commentando usando il tuo account Twitter. Chiudi sessione / Modifica )

Foto di Facebook

Stai commentando usando il tuo account Facebook. Chiudi sessione / Modifica )

Google+ photo

Stai commentando usando il tuo account Google+. Chiudi sessione / Modifica )

Connessione a %s...

%d blogger cliccano Mi Piace per questo: