Posts Tagged ‘text mining’

Il data warehouse in archivi e biblioteche

Teradata Storage Rack

Teradata Storage Rack di pchow98, su Flickr

Dei beni culturali come “oro nero dell’Italia” o, leggera variante sul tema, come “giacimenti” capaci di fungere da volano per l’economia nazionale si parla e scrive da decenni. L’idea di fondo, in ogni caso, è la medesima: la “cultura” genera ricchezza in modo tangibile e non solo in modo indiretto (ad es. attraverso il “godimento” di un quadro oppure in virtù delle benefiche ricadute sul capitale umano)!
Un neo di questo approccio era rappresentato dal fatto che i beni archivistici e librari venivano tradizionalmente considerati come le “cenerentole”, spettando al contrario a musei e siti archeologici la parte del leone.
Tale scenario è radicalmente cambiato, a ben guardare, con l’avvento dell’era digitale: nel mondo dei bit ad avvantaggiarsi della possibilità di essere trasformati in una sequenza di 0 ed 1 sono, piuttosto che le statue ed i quadri (almeno fino a quando realtà virtuale / aumentata non faranno il salto di qualità, n.d.r.), proprio libri e documenti. Questi ultimi, come noto, sono sempre più oggetto di trattamenti (che avvengono perlopiù in automatico) volti a raccogliere le informazioni / i dati in essi contenuti.
Sulle implicazioni teoriche e tecnico-pratiche di questo fenomeno ho già scritto qualcosa in questo blog, senza però mai affrontare quelli che sono, non nascondiamocelo, i motivi principali per cui i dati e le informazioni risultano così “attraenti”, vale a dire gli evidenti risvolti di business.
Del resto di business information in biblioteca si parla da decenni (basta pensare al vetusto “Business Information. How to Find and Use It” di Marian C. Manley, pubblicato nel lontano 1955…) ed oggi è normale che le principali biblioteche pubbliche offrano un servizio dedicato (vedi la British Library); analogamente è superfluo rilevare come gli archivi digitali rappresentino, in quanto a ricchezza di dati e documenti da destrutturare (data / text mining) al fine di ricavarne utili informazioni, un autentico Eldorado.
In altri termini non ci si deve scandalizzare per l’accostamento, che può apparire dissacrante specie in un paese come l’Italia in cui l’approccio predominante ad archivi e biblioteche è quello storico-umanistico, alle concrete questioni di business; al contrario, credo che vadano esplorate a fondo le evidenti, allettanti prospettive che si aprono (a fianco, si badi, di altre applicazioni che, invece, altro non sono che un modo nuovo di fare qualcosa che per certi versi si è sempre fatto).
Ritengo in particolare ci si debba soffermare sul concetto di data warehouse (letteralmente traducibile come “magazzino di dati”, n.d.r.), dal momento che esso presenta interessanti analogie con quello di archivio.
Infatti, a prescindere ora dal tipo di architettura con la quale lo si implementa (ad uno, due oppure tre livelli oppure top-down o bottom-up), esso può essere considerato una specie di “archivio” informatico o, più correttamente, un repository nel quale sono stipati dati selezionati (il che ne fa una sorta di collezione, cioè dal punto di vista teorico l’antitesi di un archivio, n.d.r.) sfruttati da un’organizzazione (in genere un’azienda di grosse dimensioni) per facilitare e velocizzare la produzione di analisi e di relazioni il più possibile attendibili / predittive e pertanto utili a fini decisionali ed, in subordine, operativi.
In breve, un sistema di data warehousing raccoglie dati provenienti dall’interno (allocandoli in tal caso in data mart) e dall’esterno dell’organizzazione, li trasforma, ed una volta “puliti” (cleaning), omogeneizzati e corredati di un adeguato numero di metadati, li stocca nelle unità di storage da dove vengono “richiamati” (aggregandoli / analizzandoli / comparandoli) e presentati alla persona deputata a compiere in primis le scelte aziendali strategiche “pure” così come quelle relative ad aree quali il controllo di gestione, l’e-commerce, il risk e l’asset management, il supporto alle vendite / marketing, etc.; si tratta dunque di un imprescindibile sistema di business intelligence.
E se si deve ribadire che il (contenuto di un) data warehouse non è un archivio né tantomeno una biblioteca, non devono nemmeno essere sottaciute alcune potenziali aree di interesse: i vertici della Pubblica Amministrazione, chiamata in questi anni ad un titanico sforzo di rinnovamento in chiave digitale, possono ignorare le potenzialità informative di quegli inesauribili “magazzini di dati” che sono gli archivi?
Similmente le biblioteche, che così precocemente si sono gettate nella mischia offrendo servizi di business information, possono non compiere l’ulteriore passo entrando nell’agone del business intelligence?
Peraltro per le biblioteche accademiche (specie quelle afferenti ai dipartimenti di scienze) i compiti potrebbero essere ben più “critici”: nel momento in cui la mole di dati ottenuta dalle varie ricerche condotte dai team si fa immane, non è logico pensare che la tradizionale funzione di supporto alla didattica ed alla ricerca avvenga non solo mettendo a disposizione i risultati di analoghe ricerche nel mondo (mediante i consueti canali quali riviste scientifiche peer reviewed, abstract, e-journal, etc.) ma anche concorrendo alla “manutenzione” di quei sistemi deputati a contenere e rielaborare i dati grezzi come sono per l’appunto quelli dedicati al data warehouse?
Insomma, anche su questo fronte le opportunità non mancano. Come sempre ci vuole, oltre ad un minimo di lungimiranza, una buona dose di coraggio ed intraprendenza per saperle cogliere.