Posts Tagged ‘data mining’

Il data warehouse in archivi e biblioteche

Teradata Storage Rack

Teradata Storage Rack di pchow98, su Flickr

Dei beni culturali come “oro nero dell’Italia” o, leggera variante sul tema, come “giacimenti” capaci di fungere da volano per l’economia nazionale si parla e scrive da decenni. L’idea di fondo, in ogni caso, è la medesima: la “cultura” genera ricchezza in modo tangibile e non solo in modo indiretto (ad es. attraverso il “godimento” di un quadro oppure in virtù delle benefiche ricadute sul capitale umano)!
Un neo di questo approccio era rappresentato dal fatto che i beni archivistici e librari venivano tradizionalmente considerati come le “cenerentole”, spettando al contrario a musei e siti archeologici la parte del leone.
Tale scenario è radicalmente cambiato, a ben guardare, con l’avvento dell’era digitale: nel mondo dei bit ad avvantaggiarsi della possibilità di essere trasformati in una sequenza di 0 ed 1 sono, piuttosto che le statue ed i quadri (almeno fino a quando realtà virtuale / aumentata non faranno il salto di qualità, n.d.r.), proprio libri e documenti. Questi ultimi, come noto, sono sempre più oggetto di trattamenti (che avvengono perlopiù in automatico) volti a raccogliere le informazioni / i dati in essi contenuti.
Sulle implicazioni teoriche e tecnico-pratiche di questo fenomeno ho già scritto qualcosa in questo blog, senza però mai affrontare quelli che sono, non nascondiamocelo, i motivi principali per cui i dati e le informazioni risultano così “attraenti”, vale a dire gli evidenti risvolti di business.
Del resto di business information in biblioteca si parla da decenni (basta pensare al vetusto “Business Information. How to Find and Use It” di Marian C. Manley, pubblicato nel lontano 1955…) ed oggi è normale che le principali biblioteche pubbliche offrano un servizio dedicato (vedi la British Library); analogamente è superfluo rilevare come gli archivi digitali rappresentino, in quanto a ricchezza di dati e documenti da destrutturare (data / text mining) al fine di ricavarne utili informazioni, un autentico Eldorado.
In altri termini non ci si deve scandalizzare per l’accostamento, che può apparire dissacrante specie in un paese come l’Italia in cui l’approccio predominante ad archivi e biblioteche è quello storico-umanistico, alle concrete questioni di business; al contrario, credo che vadano esplorate a fondo le evidenti, allettanti prospettive che si aprono (a fianco, si badi, di altre applicazioni che, invece, altro non sono che un modo nuovo di fare qualcosa che per certi versi si è sempre fatto).
Ritengo in particolare ci si debba soffermare sul concetto di data warehouse (letteralmente traducibile come “magazzino di dati”, n.d.r.), dal momento che esso presenta interessanti analogie con quello di archivio.
Infatti, a prescindere ora dal tipo di architettura con la quale lo si implementa (ad uno, due oppure tre livelli oppure top-down o bottom-up), esso può essere considerato una specie di “archivio” informatico o, più correttamente, un repository nel quale sono stipati dati selezionati (il che ne fa una sorta di collezione, cioè dal punto di vista teorico l’antitesi di un archivio, n.d.r.) sfruttati da un’organizzazione (in genere un’azienda di grosse dimensioni) per facilitare e velocizzare la produzione di analisi e di relazioni il più possibile attendibili / predittive e pertanto utili a fini decisionali ed, in subordine, operativi.
In breve, un sistema di data warehousing raccoglie dati provenienti dall’interno (allocandoli in tal caso in data mart) e dall’esterno dell’organizzazione, li trasforma, ed una volta “puliti” (cleaning), omogeneizzati e corredati di un adeguato numero di metadati, li stocca nelle unità di storage da dove vengono “richiamati” (aggregandoli / analizzandoli / comparandoli) e presentati alla persona deputata a compiere in primis le scelte aziendali strategiche “pure” così come quelle relative ad aree quali il controllo di gestione, l’e-commerce, il risk e l’asset management, il supporto alle vendite / marketing, etc.; si tratta dunque di un imprescindibile sistema di business intelligence.
E se si deve ribadire che il (contenuto di un) data warehouse non è un archivio né tantomeno una biblioteca, non devono nemmeno essere sottaciute alcune potenziali aree di interesse: i vertici della Pubblica Amministrazione, chiamata in questi anni ad un titanico sforzo di rinnovamento in chiave digitale, possono ignorare le potenzialità informative di quegli inesauribili “magazzini di dati” che sono gli archivi?
Similmente le biblioteche, che così precocemente si sono gettate nella mischia offrendo servizi di business information, possono non compiere l’ulteriore passo entrando nell’agone del business intelligence?
Peraltro per le biblioteche accademiche (specie quelle afferenti ai dipartimenti di scienze) i compiti potrebbero essere ben più “critici”: nel momento in cui la mole di dati ottenuta dalle varie ricerche condotte dai team si fa immane, non è logico pensare che la tradizionale funzione di supporto alla didattica ed alla ricerca avvenga non solo mettendo a disposizione i risultati di analoghe ricerche nel mondo (mediante i consueti canali quali riviste scientifiche peer reviewed, abstract, e-journal, etc.) ma anche concorrendo alla “manutenzione” di quei sistemi deputati a contenere e rielaborare i dati grezzi come sono per l’appunto quelli dedicati al data warehouse?
Insomma, anche su questo fronte le opportunità non mancano. Come sempre ci vuole, oltre ad un minimo di lungimiranza, una buona dose di coraggio ed intraprendenza per saperle cogliere.

Google ed il data center galleggiante

Il data  center galleggiante di Google

Il data center galleggiante di Google

Di data center (DC), in questi anni, mi sono occupato per i più svariati motivi e sotto molteplici prospettive: vuoi perché essi sono infrastruttura necessaria (ma purtroppo non sufficiente!) per mantenere in vita le speranze di archivi e biblioteche di giocare un ruolo nella società digitale, vuoi perché la loro corretta gestione (leggasi: dei dati in essi custoditi) impatta direttamente sulla privacy di tutti noi, vuoi ancora per i risvolti più strettamente tecnologici inerenti alle modalità con i quali li si costruisce (e a dove li si colloca) e, a cascata, alle possibilità di assicurare la loro continuità operativa nonché, nella peggiore delle ipotesi, la sopravvivenza dei contenuti digitali in essi custoditi.
La notizia che vado qui a commentare riassume in sé un po’ tutti questi aspetti: Google starebbe costruendo (il condizionale è d’obbligo non essendoci infatti conferme ufficiali da parte di Mountain View ma tutti gli indizi lasciano presupporre che sia effettivamente così), su un molo affacciantesi sulla baia di San Francisco, un avveniristico data center galleggiante.
Naturalmente la maggior parte dei commentatori ha spiegato la costruzione come esito della naturale ricerca, da parte dei colossi dell’high tech, di data center meno energivori: in tal senso la scelta dell’ambiente acquatico sarebbe l’ideale (a parte la presenza di sale), in quanto l’acqua potrebbe venir impiegata, oltre che per il raffreddamento delle macchine, anche per generare l’energia elettrica (in tutto od in parte non è dato sapere) necessaria al suo funzionamento. Inoltre questo data center galleggiante, potendo muoversi (nell’articolo sopra linkato si assicura che quella sorta di chiatta destinata ad ospitare i container modulari – che a loro volta andrebbero a comporre il DC in una sorta di Lego – ha capacità nautiche tali da poter andare praticamente ovunque), assicurerebbe l’ulteriore vantaggio di spostarsi in base alle esigenze, mettendolo al riparo da tutte quelle minacce atmosferico-ambientali che, per quanto ci si sforzi di realizzarli in luoghi sicuri, tipicamente affliggono i data center fissi.
Un ulteriore “vantaggio competitivo” potrebbe essere rappresentato dalla possibilità di servire aree geograficamente prive di tali infrastrutture vitali (si pensi al continente africano ed a molte regioni asiatiche): in questo senso il data center galleggiante ben si inserirebbe all’interno di altri progetti (non disinteressati, si badi) portati avanti da Google e tesi a ridurre il digital divide, come quello che prevede la realizzazione di dirigibili i quali, sorvolando le aree più remote di Africa ed Asia, letteralmente le irradierebbero dall’alto con il “vitale” segnale Wi-Fi, donando loro la connessione. Brin e Page, in altri termini, si presenterebbero come moderni “liberatori” e civilizzatori di queste nazioni arretrate…
Non meno importanti le considerazioni relative alla privacy: in tempi di datagate la presenza di un data center mobile, sottraibile dunque dalle grinfie dell’NSA, è politicamente decisamente vantaggioso ed al contrario un’ottimo modo per rifarsi un’immagine davanti ai propri utenti, ai quali si dimostrerebbe che l’azienda californiana resta fedele, nonostante tutto, al suo vecchio motto “Don’t be evil”. In verità anche sotto questo aspetto non c’è da stare molto sereni, essendo Google una maestra in fatto di data mining, tanto più che tra le due sponde dell’Atlantico la concezione della privacy si va divaricando in misura crescente ed i colossi d’oltre oceano sembrano sempre più in grado di imporre la loro legge.
In altri termini la presenza di data center che sfuggono a qualsiasi forma di controllo rappresentano un motivo di preoccupazione tanto quanto quelli, posti sul suolo degli States, che stando alle ultime indiscrezioni di giornale paiono sempre più essere stati dei veri e propri “libri aperti” per le varie agenzie federali. Forse sarebbe il caso di cercare soluzioni alternative all’apparentemente inarrestabile processo di concentrazione in pochi ed enormi DC e, parallelamente, di realizzare dorsali Internet meno americanocentriche.
Ma mi fermo qui, che sono già andato sin troppo off-topic

%d blogger hanno fatto clic su Mi Piace per questo: