Chaque minute en 2018, Google a effectué 3,88 millions de recherches, et les gens ont regardé 4,33 millions de vidéos sur YouTube, envoyé 159 362 760 e-mails, tweeté 473 000 fois et posté 49 000 photos sur Instagram, selon la société de logiciels Domo. D’ici à 2020, on estime que 1,7 mégaoctet de données sera créé par seconde et par personne dans le monde, ce qui représente environ 418 zettaoctets en une seule année (418 milliards de disques durs d’un téraoctet), dans l’hypothèse d’une population mondiale de 7,8 milliards d’habitants. Les systèmes de stockage de données magnétiques ou optiques qui contiennent actuellement ce volume de 0 et de 1 ne peuvent généralement pas durer plus d’un siècle, voire plus. En outre, le fonctionnement des centres de données nécessite d’énormes quantités d’énergie. En bref, nous sommes sur le point d’avoir un sérieux problème de stockage de données qui ne fera que s’aggraver avec le temps.
Une alternative aux disques durs progresse : Le stockage de données basé sur l’ADN. L’ADN – qui consiste en de longues chaînes de nucléotides A, T, C et G – est le matériau de stockage de l’information de la vie. Les données peuvent être stockées dans la séquence de ces lettres, faisant de l’ADN une nouvelle forme de technologie de l’information. Il est déjà couramment séquencé (lu), synthétisé (écrit) et copié avec précision et facilité. L’ADN est également incroyablement stable, comme l’a démontré le séquençage complet du génome d’un cheval fossile ayant vécu il y a plus de 500 000 ans. Et son stockage ne nécessite pas beaucoup d’énergie.
Mais c’est la capacité de stockage qui brille. L’ADN peut ranger avec précision des quantités massives de données à une densité dépassant largement celle des appareils électroniques. La simple bactérie Escherichia coli, par exemple, a une densité de stockage d’environ 1019 bits par centimètre cube, selon les calculs publiés en 2016 dans Nature Materials par George Church de l’Université de Harvard et ses collègues. À cette densité, tous les besoins de stockage actuels du monde pour une année pourraient bien être satisfaits par un cube d’ADN mesurant environ un mètre de côté.
La perspective du stockage de données sur l’ADN n’est pas seulement théorique. En 2017, par exemple, le groupe de Church à Harvard a adopté la technologie d’édition d’ADN CRISPR pour enregistrer des images d’une main humaine dans le génome d’E. coli, qui ont été lues avec une précision supérieure à 90 %. Et des chercheurs de l’université de Washington et de Microsoft Research ont mis au point un système entièrement automatisé pour écrire, stocker et lire des données encodées dans l’ADN. Un certain nombre d’entreprises, dont Microsoft et Twist Bioscience, travaillent à faire progresser la technologie de stockage de l’ADN.
Pendant ce temps, l’ADN est déjà utilisé pour gérer les données d’une manière différente, par des chercheurs qui se débattent pour donner un sens à d’énormes volumes de données. Les progrès récents des techniques de séquençage de nouvelle génération permettent de lire facilement et simultanément des milliards de séquences d’ADN. Grâce à cette capacité, les chercheurs peuvent recourir au codage à barres – utilisation des séquences d’ADN comme « étiquettes » d’identification moléculaire – pour garder trace des résultats expérimentaux. Le codage à barres de l’ADN est désormais utilisé pour accélérer considérablement le rythme de la recherche dans des domaines tels que le génie chimique, la science des matériaux et la nanotechnologie. À l’Institut de technologie de Géorgie, par exemple, le laboratoire de James E. Dahlman identifie rapidement des thérapies géniques plus sûres ; d’autres cherchent à savoir comment combattre la résistance aux médicaments et prévenir les métastases cancéreuses.
Parmi les défis à relever pour banaliser le stockage de données par l’ADN, on trouve les coûts et la vitesse de lecture et d’écriture de l’ADN, qui doivent encore baisser si l’approche veut concurrencer le stockage électronique. Même si l’ADN ne devient pas un matériau de stockage omniprésent, il sera presque certainement utilisé pour générer des informations à des échelles entièrement nouvelles et pour préserver certains types de données sur le long terme.
L’ADN est un matériau de stockage omniprésent.