La natura infrastrutturale degli archivi contemporanei

IMG_20110415_151845 di GrigorPDX, su Flickr

Left: air filters - they look like plain old disposable filters you'd have in your furnace. Right top: louvers leading to outside air Right bottom: louvers leading to the "hot" side of the data center racks.
(Foto di GrigorPDX, su Flickr)


INTRODUZIONE.

In un celebre quanto datato articolo Robert-Henry Bautier, insigne archivista e medievista francese, proponeva una interessante periodizzazione circa la storia degli archivi; in particolare egli individuava quattro fasi, la terza delle quali veniva definita come “celle des archives arsenal de l’authorithé” e che sarebbe stata caratterizzata dalla concentrazione dei fondi all’interno di edifici realizzati ad hoc che erano in tutto e per tutto castelli, vale a dire muniti di fossati, mura e torrioni difensivi in pietra (da manuale i casi del castello di Simancas in Spagna oppure quello di Castel Sant’Angelo nello Stato Pontificio). Dietro a simili realizzazioni stava una concezione che attribuiva ai documenti un’importanza decisiva per il regolare andamento della macchina amministrativa, l’attestazione dei diritti e delle prerogative regie così come per l’attuazione della politica estera (per riprendere Bautier gli archivisti, e gli archivi, “se font auxiliaires de la politique e de la diplomatie“) motivo per cui la dimensione del corretto ordinamento delle carte procedeva di pari passo con quella della loro “sicura custodia”. Insomma, il ricorso a questa terminologia “militaresca” da parte di Bautier non era dettato da semplici motivazioni retoriche ma dalla constatazione di una realtà oggettiva: così come l’arsenale è una struttura deputata alla costruzione, alla riparazione, all’immagazzinamento ed alla fornitura di armi e munizioni, similmente l’archivio era il luogo in cui trovavano riparo quei documenti che sarebbero stati usati alla stregua di armi nel corso delle bella diplomatica del XVII secolo.

I DATA CENTER, ARSENALI DEL XXI SECOLO.

Con le debite differenze, sulle quali torno poco sotto, mi sembra che gli odierni “arsenali archivistici” siano rappresentati dagli enormi data center che si vanno costruendo in giro per il mondo; il paragone appare calzante in quanto 1) in essi si vanno concentrando le “memorie digitali” relative a milioni e milioni di persone, enti ed aziende 2) nella loro realizzazione vengono adottate precauzioni ed accorgimenti del tutto affini a quelle delle basi militari. Basta dare una scorsa alle misure di sicurezza messe in campo da Amazon per capire come l’accostamento con la realtà militare sia tutt’altro che campato per aria:

Amazon has many years of experience in designing, constructing, and operating large-scale data centers. This experience has been applied to the AWS platform and infrastructure. AWS data centers are housed in nondescript facilities, and critical facilities have extensive setback and military grade perimeter control berms as well as other natural boundary protection. Physical access is strictly controlled both at the perimeter and at building ingress points by professional security staff utilizing video surveillance, state of the art intrusion detection systems, and other electronic means. Authorized staff must pass two-factor authentication no fewer than three times to access data center floors. All visitors and contractors are required to present identification and are signed in and continually escorted by authorized staff.

Amazon only provides data center access and information to employees who have a legitimate business need for such privileges. When an employee no longer has a business need for these privileges, his or her access is immediately revoked, even if they continue to be an employee of Amazon or Amazon Web Services. All physical and electronic access to data centers by Amazon employees is logged and audited routinely.

Fin qui le affinità; venendo alle differenze, ve ne sono due di macroscopiche: 1) gli archivi residenti nei data center, per quanto militarizzati, almeno in linea di principio non sono concepiti per essere al servizio di un qualche potere vessatorio ma bensì sono la base per offrire “servizi” e/o custodire dati, documenti, etc. di cittadini liberi, di aziende operanti nel libero mercato e di istituzioni democratiche 2) diversamente dai secoli passati, lo Stato sembra latitare ed i principali data center sono di proprietà di colossi ben noti al grande pubblico come Amazon, Apple, Google, Facebook ma anche di provider / fornitori come Carpathia, Cogent, OVH, Rackspace, Digital Realty; operatori che ovviamente poi sono ben lieti di offrire i propri “servizi” ai vari enti pubblici! Ad esempio sia Amazon che Carpathia hanno sviluppato apposite soluzioni per il Governo Federale degli Stati Uniti, il quale attinge largamente in modalità cloud computing a questo tipo di servizi (cliccate qui per una lista parziale); in Europa invece, essendo la legislazione comunitaria relativa al trasferimento transfrontaliero dei dati decisamente più restrittiva, si è molto più cauti nell’affidarsi a privati.
Ciò nonostante, ragionando in prospettiva, è verosimile ipotizzare che nell’Unione Europea o si allenteranno le citate restrizioni al trasferimento dei dati (a riguardo si sta delineando una spaccatura tra stati nordici, non disponibili ad un simile passo, e stati mediterranei, più possibilisti), dando dunque la possibilità di avvalersi dei servizi offerti da privati, oppure si procederà alla realizzazione di data center europei in territorio europeo. Personalmente ritengo la seconda opzione come la più lungimirante per i seguenti motivi: 1) il possedere dei data center è, dal punto di vista archivistico, premessa necessaria (ma non sufficiente) per attuare le indispensabili procedure tese a garantire la continuità operativa ed il disaster recovery (il che consente in primis di salvaguardare la parte “corrente”, vale a dire quei dati e documenti contenuti nei server ed indispensabili per il proseguimento dell’attività “istituzionale” del produttore, ed in ultima analisi di garantire la conservazione nel lungo periodo; ovviamente anche un privato può attuare questi piani ma quando si tratta della cosa pubblica e, soprattutto, sono in ballo aspetti così delicati, sono dell’avviso che la P.A. debba occuparsene direttamente) 2) assicura indipendenza ed in un ultima analisi “libertà”. Il rovescio della medaglia, evidente, è che ci si deve fare carico di tutti i costi: realizzativi, di gestione e di manutenzione.

DATA CENTER: MODELLI REALIZZATIVI, ASPETTI TECNICI…

La maggior parte dei moderni data center non è costituita da pochi supercomputer o pochissimi mainframe, bensì dall’unione all’interno di un medesimo spazio fisico di migliaia di elaboratori di fascia medio – bassa. E’ questo, tra i tanti, l’approccio di Google che significativamente lo definisce wharehouse computing e così lo descrive:

The hardware for such a platform consists of thousands of individual computing nodes with their corresponding networking and storage subsystems, power distribution and conditioning equipment and extensive cooling systems. The enclosure for these systems is in fact a building structure and often indistinguishable from a large warehouse

Tale definizione individua quelli che sono gli elementi principali di un data center ovvero “n” elaboratori, custoditi in una sorta di armadietto definito in gergo rack, a loro volta siti all’interno di un edificio e collegati tra di loro. Da ciò deriva che in un DC ricoprono un ruolo cruciale i seguenti sistemi:
1) UPS (Uninterruptible Power Supply; Gruppo di Continuità), il quale assolve a tre compiti fondamentali, ovvero a) garantire l’erogazione continua di energia elettrica alla struttura e, qualora dovesse verificarsi un’interruzione nella fornitura da parte della public utility, b) far intervenire la batteria fintantoché non interviene il generatore di emergenza, il tutto c) senza che si verifichino dannosi sbalzi di tensione
2) PDU (Power Distribution Units), ovvero il sistema di distribuzione dell’energia elettrica, distribuzione che avviene attraverso quadri e/o interruttori elettrici in genere “annegati” nel pavimento del data center
3) sistema di condizionamento; il metodo più diffuso vede la presenza di CRAC (Computer Room Air Conditioning), vale a dire di “stanze” dalle quali spira aria fredda che, scorrendo sotto il pavimento (tra il pavimento vero e proprio e quello che effettivamente si calpesta e sul quale sono collocati rack, CRAC, etc. può esserci sino ad un metro e mezzo di spazio vuoto; n.d.r.), esce attraverso delle specie di grate giusto in corrispondenza dei rack da raffreddare; l’aria calda uscita dai rack fluisce verso l’alto all’interno di un ulteriore spazio vuoto posto nel soffitto e di qui indirizzata verso il CRAC per riprendere il circolo. Nei DC più evoluti la gestione dei flussi d’aria è così raffinata che ad ogni singolo server perviene la necessaria aria di raffreddamento alla temperatura ottimale (una via alternativa è il cosiddetto in-rack cooling nel quale ogni “armadietto” è praticamente “cablato” da serpentine che fungono da scambiatori di calore; questa soluzione ovviamente ottimizza il raffreddamento ma è assai costosa dal momento che l’impianto di raffreddamento viene ad estendersi su tutta la superficie del centro dati oltre che relativamente più pericolosa giacché, in caso di rottura delle serpentine, il liquido di raffreddamento potrebbe finire sulla parte elettrica… evenienza assolutamente da scongiurare!).

Cabinet Airflow

Cabinet Airflow di talk2stu, su Flickr

Va ricordato, per finire, che per aumentare il livello di sicurezza spesso e volentieri i citati elementi sono ridondanti; così se in un data center Tier I vi è un’unico canale di raffreddamento e di distribuzione dell’energia in un Tier IV (il più elevato della scala) ve ne sono due di attivi oltre che ulteriori percorsi di emergenza. Non va ovviamente neppure dimenticato che fondamentale risulta essere la localizzazione geografica del data center: non dovrebbe trovarsi, ad esempio, in zone sismiche, in prossimità di corsi d’acqua ed in generale in aree soggette ad allagamenti o frane (“a rischio idro-geologico”) così come andrebbero evitate zone troppo fredde od al contrario troppo calde! Inoltre, sarebbe auspicabile che nella realizzazione dei DC europei si metabolizzasse l’approccio “green” di Gartner e, pertanto, si facesse ricorso a fonti di energia rinnovabile.

… E L’OBIETTIVO INDEROGABILE DELLA CONTINUITA’ OPERATIVA.

Castelli e fortezze, spesso progettati dai migliori architetti militari, erano in grado di resistere a lunghissimi attacchi ed assedi senza che si verificasse un sensibile degradamento della loro capacità bellica; similmente tutte le soluzioni tecnologiche descritte nella precedente sezione sono finalizzate a garantire la continuità operativa (business continuity), ossia il normale funzionamento dei servizi ICT utilizzati per lo svolgimento delle attività istituzionali, anche in presenza di disguidi tecnici, di “attacchi” o di altri eventi imprevisti. A fronte di avvenimenti che provocano l’indisponibilità prolungata del data center in cui normalmente si opera / al quale ci si appoggia (sito primario), viene attivato il piano di disaster recovery, il quale prevede l’attuazione di un mix di soluzioni tecnologiche ed organizzative tese a garantire la pronta ripresa dell’attività istituzionale in siti alternativi (detti secondari) rispetto a quelli primari/di produzione per il tempo necessario a rendere nuovamente operativo il sito primario.
Si tratta, manco a dirlo, di argomenti da tempo dibattuti in ambito internazionale ma che in Italia, dal punto di vista legislativo, solo di recente hanno finalmente trovato piena recezione; ad esempio le “Linee guida per il Disaster Recovery delle Pubbliche Amministrazioni”, redatte ai sensi dell’art. 50-bis, co. 3 del CAD (D. Lgs. 82/2005), hanno visto la luce solo nell’autunno 2011 ed imponevano che ogni ente presentasse entro il 25 aprile 2012 un Piano di Continuità Operativa (PCO) ed uno di Disaster recovery (PDR), individuando contestualmente una figura responsabile (RCO). Al di là del fatto che le varie amministrazioni abbiano ottemperato o meno nei tempi prescritti ai suddetti obblighi di legge, mi preme qui rilevare come l’input sia stato essenzialmente “archivistico”: nelle citate Linee Guida si trova infatti testualmente scritto che “il processo di dematerializzazione promosso dal CAD […] ha trasformato da ordinatoria a perentoria l’azione di eliminazione della carta, comporta[ndo] un incremento della criticità dei sistemi informatici che non possono più contare su un backup basato sulla documentazione cartacea”.
Da quanto innanzi detto derivano a cascata alcuni cambiamenti di una certa portata:
1) la continuità operativa ed in subordine il disaster recovery sono possibili a patto di individuare preliminarmente, accanto al sito primario, un sito secondario al quale trasferire come operazione di routine i dati / documenti prodotti dal primario; in caso di “problemi” il sito secondario diviene temporaneamente operativo fintantoché il primario non ritorna disponibile e pertanto deve disporre delle necessarie risorse hardware e software =>
2) nelle procedure di BC / DR diventa un fattore cruciale il trasferimento tra i due siti; le Linee Guida prevedono sei livelli (Tier 1 – 6) nei primi due dei quali il trasferimento consiste nel trasporto fisico (ad esempio a mezzo di apposito furgone) dal sito primario a quello secondario dei dischi ottici contenenti la copia di backup. E’ inutile sottolineare, però, come nell’epoca di Internet, grazie anche all’innalzamento delle velocità di upload / download ed ai migliori tempi di latenza, la Rete sia la soluzione più in voga e come il paradigma del cloud computing sia la soluzione sulla quale oggi si punta di più
3) dando per assodato che il trasferimento dei dati avvenga attraverso la Rete, va osservato che le operazioni di copia (Data Mirroring) finiscono per riguardare anche gli applicativi; le Linee Guida infatti lo definiscono “un processo con cui dati ritenuti critici vengono copiati secondo precise regole e politiche di backup al fine di garantire l’integrità, la custodia e la fruibilità degli archivi, dei dati e delle applicazioni e la possibilità di renderli utilizzabili, ove fosse necessario, procedendo al ripristino degli archivi, dei dati e delle applicazioni presso un sito alternativo a quello primario”. In particolare uno degli obiettivi principali è ottenere l’allineamento dei dati (ovvero il “coordinamento dei dati presenti in più archivi finalizzato alla verifica della corrispondenza delle informazioni in essi contenute”; per inciso l’allineamento, a seconda del Tier prescelto, può essere asincrono o sincrono) ed eventualmente il retroallineamento (ovvero “caricare” i dati prodotti nel sito secondario durante una fase di emergenza in quello primario in vista della ripresa dell’operatività di quest’ultimo) =>
4) dal punto di vista archivistico l’attuazione del Piano di Continuità Operativa significa il trasferimento costante di dati / documenti dal sito primario a quello secondario con questi ultimi che, nel caso di Tier 6, sono de facto speculari, motivo per cui (fatto salvo il caso di mancato allineamento), mi sembra si possa parlare della presenza di originali in duplice copia (per quanto poco senso possa avere la distinzione originale – copia in ambiente digitale). Inoltre è interessante osservare come, proprio perché parte integrante delle policy messe in atto, l’instabilità e l’ubiquità di dati e documenti sia, soprattutto nella fase corrente, più la regola che l’eccezione.
5) il legislatore ha chiaro come le operazioni di backup da un sito all’altro non equivalgono alla conservazione di lungo periodo per finalità storico – documentali; a proposito nelle Linee Guida ci si limita a ricordare come occorra raccordarsi al Manuale di conservazione e come il “salvataggio” debba avvenire su supporti adeguati. Sulla scorta di tali suggerimenti mi vien da ipotizzare due possibili soluzioni: a) all’interno della medesima coppia di data center vanno predisposti dei rack attrezzati con storage server di elevata qualità (diversamente dai rimanenti che, abbiamo visto, possono essere di livello medio – basso) nei quali destinare quei dati e documenti per i quali è prevista la conservazione permanente (la cosa è fattibile in quanto la “destinazione finale” è nota sin dal momento della creazione) b) che accanto alla coppia di data center deputati alla fase operativa / corrente ne venga costruita una ad hoc per quella di conservazione.
A prescindere da quale delle due opzioni prediligere (motivazioni di contenimento dei costi / ottenimento di economie di scala mi fanno propendere per la prima soluzione), va rimarcato come venga confermato che la migliore strategia conservativa sia quella di assicurare (potendolo provare attraverso audit, file di log, etc.), che la vita dei dati / documenti è sempre avvenuta all’interno di un sistema sicuro ed inviolato (e qui ritorniamo alle specifiche costruttive che devono possedere i data center) e che le procedure di copia sono avvenute senza errori.
6) Superfluo, da ultimo, sottolineare come gli aspetti tecnici non debbano mettere in secondo piano quelli organizzativi (come sempre deve venir coinvolta l’intera organizzazione!); mi preme solamente evidenziare come vada assolutamente individuata una catena di comando strutturata gerarchicamente secondo un modello che guarda caso rimanda nuovamente all’ambiente militare.

CONCLUSIONI.

Considerando la formazione prettamente umanistica della maggior parte degli archivisti (sottoscritto naturalmente incluso), comprendo come gli argomenti trattati in questo post appaiano oggettivamente ostici; eppure con tali tematiche occorre confrontarsi in quanto, è la mia convinzione, l’archivio del prossimo futuro coinciderà de facto con i moderni data center. Si tratta di un cambiamento di prospettiva di notevole portata per almeno i seguenti motivi: a) in primo luogo perché si torna a parlare di archivio nel suo complesso e non per questa o quella delle ripartizioni logiche – corrente, deposito, storico – nelle quali la teoria e la legislazione tradizionalmente l’hanno suddiviso b) in secondo luogo perché l’archivio diviene infrastruttura strategica e centrale per il “regolare svolgimento” della vita (digitale) di cittadini, aziende ed enti pubblici c) ultimo perché, della costruzione di tali data center / archivi “arsenali”, devono tornare a farsene carico gli Stati, meglio ancora se in chiave europea, l’unica che può garantire il necessario apporto finanziario nonché quell’ampiezza di spazi geografici tali da rendere la localizzazione dei DC veramente adeguata al raggiungimento dei dichiarati obiettivi di business continuity e di disaster recovery.

A chi volesse approfondire questo importante argomento consiglio di leggere la versione su Storify di questo post, ricca di documenti utili.

Pubblicità

7 responses to this post.

  1. […] di Nuvola Italiana di Telecom Italia) oppure, scelta strategica, si decide a realizzare queste infrastrutture vitali. Del resto, ultimo aspetto da valutare, nel momento in cui si realizzano queste strutture […]

    Rispondi

  2. […] effettivo!) di adeguate policy. Ritorna prepotentemente dunque 4) l’importanza di costruire infrastrutture informatiche adeguate a supportare la mole sterminata di dati che, c’è da scommetterci, la nostra […]

    Rispondi

  3. […] a patto di investire, per l’appunto, in tecnologia. Anche per le biblioteche dunque, così come per gli archivi, un vero futuro è possibile solo se si possiede una adeguata infrastruttura. E qui torniamo […]

    Rispondi

  4. […] un mio post di qualche tempo fa mi soffermavo sulla crescente importanza, per i moderni archivi digitali, che va assumendo […]

    Rispondi

  5. Ciao! Molto interessante … possiamo mettere in cantiere una versione per Il Mondo degli Archivi? 🙂

    Rispondi

  6. Posted by Simone Vettore on Maggio 20, 2014 at 9:12 am

    Certo Letizia, anche se sui tempi non so darti indicazioni precise… Periodo molto intenso questo!

    Ciao e a presto,

    Simone

    Rispondi

  7. […] con forza come il passaggio al digitale costituisce un duplice pericolo: la realizzazione dei data center, nei quali si accumulano gli archivi e le biblioteche digitali, da un lato rendono inutili, agli […]

    Rispondi

Rispondi

Inserisci i tuoi dati qui sotto o clicca su un'icona per effettuare l'accesso:

Logo di WordPress.com

Stai commentando usando il tuo account WordPress.com. Chiudi sessione /  Modifica )

Foto Twitter

Stai commentando usando il tuo account Twitter. Chiudi sessione /  Modifica )

Foto di Facebook

Stai commentando usando il tuo account Facebook. Chiudi sessione /  Modifica )

Connessione a %s...

%d blogger hanno fatto clic su Mi Piace per questo: