Ogni minuto nel 2018, Google ha condotto 3,88 milioni di ricerche, e le persone hanno guardato 4,33 milioni di video su YouTube, inviato 159.362.760 e-mail, twittato 473.000 volte e pubblicato 49.000 foto su Instagram, secondo la società di software Domo. Entro il 2020 si stima che verranno creati 1,7 megabyte di dati al secondo per persona a livello globale, il che si traduce in circa 418 zettabyte in un solo anno (418 miliardi di hard disk da un terabyte di informazioni), assumendo una popolazione mondiale di 7,8 miliardi. I sistemi di immagazzinamento dati magnetici o ottici che attualmente contengono questo volume di 0 e 1 in genere non possono durare più di un secolo, se non di più. Inoltre, la gestione dei centri dati richiede enormi quantità di energia. In breve, stiamo per avere un serio problema di archiviazione dei dati che diventerà solo più grave nel tempo.
Un’alternativa ai dischi rigidi sta progredendo: L’archiviazione dei dati basata sul DNA. Il DNA – che consiste in lunghe catene di nucleotidi A, T, C e G – è il materiale di archiviazione delle informazioni della vita. I dati possono essere memorizzati nella sequenza di queste lettere, trasformando il DNA in una nuova forma di tecnologia dell’informazione. È già ordinariamente sequenziato (letto), sintetizzato (scritto) e accuratamente copiato con facilità. Il DNA è anche incredibilmente stabile, come è stato dimostrato dal sequenziamento completo del genoma di un cavallo fossile vissuto più di 500.000 anni fa. E immagazzinarlo non richiede molta energia.
Ma è la capacità di immagazzinamento che brilla. Il DNA può immagazzinare con precisione enormi quantità di dati a una densità che supera di gran lunga quella dei dispositivi elettronici. Il semplice batterio Escherichia coli, per esempio, ha una densità di memorizzazione di circa 1019 bit per centimetro cubo, secondo i calcoli pubblicati nel 2016 su Nature Materials da George Church della Harvard University e dai suoi colleghi. A quella densità, tutte le attuali esigenze di archiviazione del mondo per un anno potrebbero essere ben soddisfatte da un cubo di DNA che misura circa un metro di lato.
La prospettiva di archiviazione dei dati del DNA non è solo teorica. Nel 2017, per esempio, il gruppo di Church ad Harvard ha adottato la tecnologia di editing del DNA CRISPR per registrare le immagini di una mano umana nel genoma di E. coli, che sono state lette con una precisione superiore al 90%. E i ricercatori dell’Università di Washington e Microsoft Research hanno sviluppato un sistema completamente automatizzato per scrivere, memorizzare e leggere i dati codificati nel DNA. Un certo numero di aziende, tra cui Microsoft e Twist Bioscience, stanno lavorando per far progredire la tecnologia di archiviazione del DNA.
Intanto il DNA viene già usato per gestire i dati in un modo diverso, dai ricercatori che si trovano alle prese con il dare un senso a enormi volumi di dati. I recenti progressi nelle tecniche di sequenziamento di nuova generazione permettono di leggere facilmente e simultaneamente miliardi di sequenze di DNA. Con questa capacità, i ricercatori possono impiegare codici a barre – l’uso di sequenze di DNA come “tag” di identificazione molecolare – per tenere traccia dei risultati sperimentali. La codifica a barre del DNA viene ora utilizzata per accelerare drasticamente il ritmo della ricerca in campi come l’ingegneria chimica, la scienza dei materiali e la nanotecnologia. Al Georgia Institute of Technology, per esempio, il laboratorio di James E. Dahlman sta rapidamente identificando terapie geniche più sicure; altri stanno capendo come combattere la resistenza ai farmaci e prevenire le metastasi del cancro.
Tra le sfide per rendere comune l’archiviazione dei dati sul DNA ci sono i costi e la velocità di lettura e scrittura del DNA, che devono scendere ulteriormente se l’approccio deve competere con l’archiviazione elettronica. Anche se il DNA non diventerà un materiale di memorizzazione onnipresente, sarà quasi certamente usato per generare informazioni su scale completamente nuove e per conservare certi tipi di dati a lungo termine.