Des cassettes et de l'ADN pour faire face à l'explosion de nos données numériques

Recherche, industries et individus accumulent de plus en plus de données numériques. À tel point que les disques durs et autres enregistreurs seront bientôt débordés. Pour pallier les manques à venir, un objet ancien évolue constamment : la cassette magnétique, en attendant une technologie de pointe basée sur l’ADN.

Une photo Instagram, des vidéos sur un drive, des mails… chaque individu accumule un nombre considérable de données numériques, en constante augmentation avec les nouvelles technologies à notre disposition – vidéos en 4K, streaming sur Netflix – le tout stocké non pas sur un disque dur, mais dans le « nuage », le « cloud », parfois à des centaines de kilomètres de soi. Mais ces données, bien que très familières, ne sont pas celles qui pèsent le plus lourd dans le « Big Data », les données massives.

La recherche en est un contributeur bien plus important. Les expériences scientifiques humaines pèsent lourd, très lourd : l’Organisation européenne pour la recherche nucléaire, le CERN, près de Genève, a accumulé, depuis sa création, plus de 100 pétaoctets (Po) d’images, de données brutes, d’informations, à conserver pour les générations futures qui voudront les étudier. 100 Po, c’est l’équivalent d’environ 102 400 disques durs de 1 téraoctet (To), en vente pour les particuliers…

La première image du trou noir M87* a nécessité une immense quantité de données. Event Horizon Telescope (EHT)/National Science Foundation/Handou

La première photo d’un trou noir a nécessité près de 5 Po, ce qui équivaut à 5 000 disques durs de 1 To. Les industries, comme Twitter, EDF, ou n’importe quelle entreprise un minimum numérisée, sont d’autres contributeurs au Big Data.

Des limites physiques

Entre 2010 et 2020, le nombre d’informations contenues dans les données massives a été multiplié par plus de 30, passant de 2 zettaoctets (2 millions de Po), à 60 zettaoctets. Et le rythme s’accélère. D’ici à 2025, l’humanité devrait produire 175 zettaoctets de données.

François Képès, biologiste cellulaire, responsable entre 2018 et 2021 d’un groupe de travail de prospective sur le stockage des données numériques, explique : « En 2018, un millionième des terres émergées de la planète étaient occupées par des centres de données. À ce rythme exponentiel là, en 2060, toutes les terres émergées seront recouvertes de centres de données. »

Construction d'un centre de données de Facebook le 5 octobre 2021 à Eagle Mountain, dans l'Utah. — Construction d’un centre de données de Facebook le 5 octobre 2021 à Eagle Mountain, dans l’Utah. Getty Images via AFP – GEORGE FREY

Pourtant, en 70 ans, les chercheurs n’ont cessé de réduire la taille des systèmes de stockage, passant de la disquette au disque dur, pour des capacités démultipliées. Mais dans ses conclusions, le rapport du groupe de travail publié en 2020 rappelle que la loi de Moore sur les semi-conducteurs s’applique aussi aux systèmes de stockages électronique et magnétique. « Il n’est pas possible de miniaturiser et d’optimiser indéfiniment. Il y avait un doublement des capacités et une division par deux du prix, tous les deux ans, pendant plusieurs décennies, mais cette optimisation est en ralentissement. On est en train d’atteindre certaines limites physiques dures et l’optimisation qu’on peut encore en attendre est relativement faible », précise François Képès.

La cassette, une solution de secours

Si les systèmes de stockage électronique atteignent leurs limites, la cassette, elle, continue de battre des records. Oui, il est bien question ici de la cassette, celle que vous mettiez dans votre vieux caméscope ou lecteur-cassette, dont les bandes pouvaient partir dans tous les sens en cas de rembobinage défectueux. Mais les cassettes développées aujourd’hui n’ont rien à voir avec celles d’hier. Le dernier record de Fujifilm et IBM s’établit à 580 To soit l’équivalent de 76 millions de cassettes audio des années 1990 (60 Mo/cassette). Ici une vidéo lors du record de 2017, qui était alors de 330 To.

Avec des bandes vingt fois plus fines qu’un cheveu et longues de plus d’un kilomètre, la cassette loge dans la paume d’une main, et a encore quelques années devant elle. Mark Lantz, chercheur spécialisé dans la bande magnétique à IBM, déclare à ce propos : « Cela démontre vraiment la possibilité de poursuivre la mise à l’échelle de la technologie des bandes, essentiellement à des taux historiques de doublement de la capacité des cartouches tous les deux ans, pendant au moins les dix prochaines années. »

Les dix prochaines années… et après ? En mettant en avant cette temporalité, Mark Lantz, comme de nombreux ingénieurs travaillant dans le stockage, montre qu’il a bien conscience des limites du stockage électronique et magnétique. Tous deux consomment des ressources énormes, en énergie et en place.

Mark Lantz, scientifique à IBM, tient une cassette de plusieurs centaines de To dans sa main. © Photo courtesy of IBM Research

La cassette magnétique a toutefois cet avantage d’être moins gourmande en électronique : un seul lecteur peut lire plusieurs cassettes, là où chaque disque dur embarque son propre système de lecture. De plus, une cassette dure des dizaines d’années contrairement à un disque dur, et est plus économe en énergie.

Malgré tout, une cassette, aussi puissante soit-elle, prend encore trop d’espace physique et ne saura contenir la taille des données massives à venir. Il faut donc passer à la vitesse supérieure. Et c’est ce qu’a cherché à faire le groupe de travail de François Képès. « Nous avons logiquement considéré des alternatives comme la gravure sur verre, sur cristal ou le stockage sur des polymères comme l’ADN. Il nous a semblé probable que la seule technologie qui pouvait être développée à temps et qui présentait des facteurs d’amélioration suffisants, était le stockage sur polymère », résume le chercheur.

En attendant l’ADN

L’ADN ? Pas de panique : il n’est pas question de stocker des informations dans des êtres vivants, ou d’en modifier directement chez quelqu’un. Certes, il a été imaginé de le faire dans des bactéries ou des spores, mais ce n’est plus la piste principale.

L’ADN est une grosse chaîne de molécules qui comportent les instructions pour la reproduction et le développement d’être vivants. Ici, c’est le terme « instruction » qui est intéressant. L’ADN, c’est une chaîne de quatre monomères, les « barres » qui relient les deux hélices : A, C, G et T. La suite de ces monomères (AAGTTCCGATAT, par exemple) donne l’information, exactement comme… le système binaire, basé sur 1 et 0, à l’origine de tout système informatique.

Le séquençage de l'ADN est composé de quatre monomères différents : A, C, T, G. — Le séquençage de l’ADN est composé de quatre monomères différents : A, C, T, G. Getty Images – alanphillips

D’abord, il faut déterminer quelle succession de monomère on souhaite aligner, pour encoder le fichier numérique. Imaginons que A vaut 0 0, C vaut 0 1, G vaut 1 1, et T vaut 1 0. Prenons un exemple totalement factice. Si l’on veut stocker une photo, encodée 01 11, cela signifierait que l’ordinateur doit « traduire » le 01 11 en CG. C’est l’encodage, on code le fichier. Ensuite, il faut écrire « chimiquement » CG dans l’ADN, puis stocker celui-ci pour le ressortir quand on en a besoin.

Au moment de la lecture, le logiciel va traduire la suite de lettres en code binaire, reconstituant ainsi la photo à l’écran. Pour résumer, il y a donc cinq étapes : encodage, écriture, stockage, lecture, décodage.

Mais pourquoi stocker nos informations sur de l’ADN ? Pour le nombre d’informations que l’on peut y encoder (la densité informationnelle), sa sobriété énergétique et sa durabilité. Pas besoin de refroidir l’ADN, contrairement aux centres de données : il se conserve à température ambiante… jusqu’à 52 000 ans, si l’on utilise la technique d’encapsulage de la société française Imagene.

Chacune de ses capsules peut contenir jusqu’à 0,8 g d’ADN, soit 1,4 Exaoctet de données. Pour rappel, un exaoctet représente un million de disques durs de 1 To. 0,8 g d’ADN contiendrait ainsi autant d’informations que 150 tonnes de disques durs ! Pour stocker les 175 Zettaoctets du Big Data de 2025, il faudrait seulement 175 kilos d’ADN. L’agence DARPA américaine considère que l’ADN pourrait permettre de diviser par mille la consommation d’énergie de nos données.

Un potentiel de développement ?

L’atout principal de l’ADN, c’est qu’on le connaît très bien, rappelle François Képès : « Le biomédical a entraîné le développement d’une technologie ADN qui est déjà très avancée. Cela signifie que toutes les méthodes nécessaires pour le travail de stockage et d’archivage de données numériques a déjà été fait, maintenant, cela ne veut pas dire qu’il est à niveau du point de vue commercial, pas du tout. »

Néanmoins, la technologie progresse très vite. « Le coût pour séquencer un génome humain [la lecture, NDLR] a extraordinairement baissé. On était à 3 milliards de dollars en 2003, on est à 500 aujourd’hui », s’enthousiasme le chercheur. Mais il reste des limites : 500 dollars pour une lecture de l’ADN à la vitesse de 2022, c’est encore 1 000 fois trop cher et 1 000 fois trop lent, par rapport à un disque dur. Pour l’écriture, c’est même 100 millions de fois trop lent et trop cher.

« Il y a des gens qui nous ont dit de revenir en parler à la fin du siècle. Pas du tout ! Les technologies liées à l’ADN progressent d’un facteur deux tous les six mois environ : quatre fois plus rapidement que l’électronique entre 1976 et 2011. À ce rythme, le facteur 1000 de la lecture sera avalé d’ici à cinq ans, autour de 2025. Et les 100 millions pour l’écriture, lui, autour de 2035 ! »

Déjà, certaines applications sont possibles pour l’ADN, en attendant 2035. Toutes les données n’ont pas besoin d’être lues ou écrites régulièrement. Ainsi, l’INA, organisme français chargé d’archiver les productions audiovisuelles, accumule chaque année 20 Po supplémentaires de données. Toutes ces données n’ont pas besoin d’être ressorties rapidement, d’où l’intérêt de les encoder dans l’ADN. De la même manière, le secteur bancaire, qui doit conserver les données bancaires de ses clients parfois des dizaines d’années, pourrait utiliser cette nouvelle technologie de stockage.

Preuve que l’enjeu est énorme, le DARPA américain a investi des centaines de millions d’euros dans les technologies ADN. La France, elle, commence à s’y mettre, notamment grâce au groupe de travail de François Képès, avec un investissement de 20 millions d’euros du gouvernement octroyé à la recherche sur le stockage ADN.

► À lire aussi : Face à l’immensité du Big Data, les stratégies des journalistes d’investigation