Nelle reti neurali il futuro dei data center (e degli archivi digitali)?

4 Giu

Nelle reti neurali il futuro dei data center (e degli archivi digitali)?

Posted giugno 4, 2014 by Simone Vettore in Uncategorized. Tagged: archival science, archivi digitali, data center, google, machine learning, neural network. Lascia un commento

neural network di onkel_wart (thomas lieser), su Flickr

L’idea di fondo che permea buona parte dei post pubblicati in questo blog è che in tempi di cloud computing imperante, gli archivi digitali stiano tendenzialmente finendo per coincidere con i data center; questi ultimi, nella teoricamente impalpabile nuvola, rappresenterebbero la parte “materiale” (la ferraglia, per intenderci) del sistema, nella quale i nostri dati e documenti digitali trovano riparo.
Quest’approccio archivistico ai data center, inevitabile alla luce di quelli che sono i miei interessi, mi ha dunque inesorabilmente portato a prendere in considerazione queste infrastrutture strategiche essenzialmente nella loro “staticità” (intendendo con tale termine la capacità di offrire, materialmente, ricovero ai dati e documenti caricati nella nuvola), sottacendo nella maggior parte dei casi l’insieme di compiti computazionali che in misura crescente deleghiamo “al lato server“.
L’annuncio dato da Google con un post nel suo blog circa l’applicazione di tecnologie machine learning in uno dei suoi data center (DC), oltre ad aprire scenari che fino a pochi anni fa avrebbero trovato posto al più nei libri di fantascienza, spariglia le carte e mi impone a riflettere se l’impostazione sin qui adottata rimanga corretta o sia al contrario da rivedere.
Ma, prima di abbandonarci a voli pindarici, partiamo dalla notizia che, va detto, in sé non rappresenta nulla di trascendentale: in sostanza i tecnici dell’azienda di Mountain View, sempre alla ricerca di nuovi metodi per tagliare i consumi energetici dei propri DC, invece di seguire le teorie “classiche” che puntano su aspetti quali la dislocazione geografica (con tentativi talvolta stravaganti, come il fantomatico data center galleggiante approntato nella baia di San Francisco proprio da Big G e che così tanto ha fatto discutere lo scorso autunno), hanno ottenuto importanti risparmi implementando un “neural network” capace di apprendere dal comportamento di quei macchinari presenti nel DC e deputati al raffreddamento dei server (aspetto, come noto, costosissimo ma fondamentale per garantirne la massima operatività ed efficienza), prevedendo l’andamento dei consumi e, passaggio successivo, ottimizzandoli.
Ma cosa intende Google per rete neurale (artificiale)? Come specificato in un white paper diffuso per l’occasione, l’idea di fondo è realizzare “[a] class of machine learning algorithms that mimic cognitive behaviour via interactions between artifical neurons”; tali algoritmi permettono di avviare nelle macchine un processo di “apprendimento” (training) progressivo e cumulativo (nonché potenzialmente infinito) che ha come obiettivo l’accrescimento complessivo della “conoscenza” e l’accuratezza / qualità dei dati raccolti, con il fine dichiarato di individuare “patterns and interactions between features to automatically generate best-fit model”.
Nel concreto che hanno fatto i ricercatori di Google? Hanno applicato una serie di sensori in punti chiave del data center (quali refrigeratori, torri di raffreddamento, scambiatori di calore, pompe, etc.) ed hanno iniziato a cambiare, uno alla volta, i vari parametri tenendo nel frattempo costanti gli altri. Sono in tal modo riusciti a vedere non solo gli effetti, sull’intero sistema, dei cambiamenti apportati ma, grazie agli algoritmi di apprendimento utilizzati, sono stati in grado di far “imparare” il sistema dalle performance passate sviluppando progressivamente capacità predittive tali da migliorare quelle future.
Si capirà dunque come i titoloni circolati nei giorni scorsi (vedi le “superintelligent server farms” di cui ha parlato Techcrunch) siano eccessivi: Google, in definitiva, ha “semplicemente” reso operativo, peraltro in via sperimentale, un primo fascio di reti neurali artificiali applicato a quella che è la parte “meccanica” dei DC.
Il data center supercervellone capace di agire (ed interagire) sulla falsariga del celeberrimo HAL 9000 del film “2001 – Odissea nello spazio” (ovvero un supercomputer dotato di intelligenza artificiale ed in grado, se interrogato, di fornirci risposte), è dunque lungi dal divenire realtà.
Una volta depurata la notizia dai risvolti “fantascientifici” con i quali è stata subito ricoperta, bisogna però pure ammettere come essa, al di là del suo significato “basico” (ovvero la possibilità, anche per quei DC che svolgono funzioni di “archivio”, di adottare algoritmi di machine learning grazie ai quali ottenere considerevoli risparmi), riveste effettivamente una notevole importanza archivistica.
E’ stato infatti compiuto, con il progetto pilota di Google, un importante salto qualitativo: è infatti solo questione di tempo prima che i sensori vengano applicati, oltre che alla parte meccanica, ai server medesimi. Quando ciò avverrà il neural network instaurerà nessi e collegamenti (assimilabili in qualche modo al vincolo archivistico impuro?) tra i vari dati e documenti conservati sprigionandone l’intero potenziale informativo (tema connesso a quello dei big data ed al warehouse computing del quale ho parlato giusto nel mio ultimo post) e decretando così l’importanza strategica degli archivi.
Inoltre, aspetto non secondario, d’ora in poi l’idea statica di “data center come archivio”, ovvero come luogo fisico nel quale risiedono concretamente i dati ed i documenti digitali, è destinata a lasciar posto a quella, dinamica, di data center come luogo nel quale si instaurano collegamenti e percorsi nuovi e non prevedibili da parte… di un’intelligenza artificiale; l’attenzione si sposterà, in altri termini, dal contenitore (il DC) al suo contenuto.
Con tutto ciò che ne consegue.

Memoria digitale Tendenze e problemi in archivi e biblioteche (e tutto ciò che vi ruota attorno)