ADN | Archives 21

MICHEL CHARTIER, étudiant

Ce texte est d’une version modifée d’un travail a été réalisé à l’EBSI, Université de Montréal, dans le cadre du cours ARV1050 – Introduction à l’archivistique donné au trimestre d’automne 2016 par Daniel Ducharme.

Dans un billet précédent, nous avons posé la problématique de la conservation des documents en soulignant la possibilité de recourir à l’ADN comme moyen éventuel de conservation. Dans ce billet, sans aller trop loin dans les détails, nous présenterons, en ordre chronologique, quelques-unes des méthodes qui ont été élaborées dans le but de consigner de l’information au moyen d’ADN.

Clelland et collègues (1999)

Cette première méthode n’a pas été mise au point dans le but d’archiver des données. Il s’agit néanmoins de l’une des premières à utiliser de l’ADN pour coder des messages (l’information), et c’est pourquoi nous l’abordons ici.

Selon Clelland, Risca et Bancroft (1999), elle s’inspire de la stéganographie, technique développée par le professeur Zapp et utilisée durant la Deuxième Guerre mondiale par les espions allemands pour transmettre des messages secrets. Elle consistait à photographier une page dactylographiée, à réduire considérablement la photo pour ainsi obtenir un « micropoint », puis à coller celui-ci sur un point (signe de ponctuation) dans une lettre anodine.

Ces chercheurs ont utilisé la technique stéganographique pour coder un message de type textuel dans un échantillon d’ADN et pour dissimuler ce dernier dans un micropoint. Le message est codé dans un brin d’ADN au moyen d’une clé de chiffrement, où les lettres de l’alphabet, les nombres de 1 à 9 et certains signes de ponctuation correspondent chacun à un triplet de bases azotées distinct (p. ex., A=CGA, B=CCA et ainsi de suite). Le message est associé à des séquences d’amorces, lesquelles servent à synthétiser le brin complémentaire d’ADN, et donc à « lire » le message. Une minuscule gouttelette de solution contenant 225 nanogrammes d’ADN humain, y compris le brin contenant le message caché, est ensuite versée sur un point imprimé sur du papier filtre. Dans cette expérience, des micropoints produits de cette manière ont été fixés à des points dans une lettre, puis celle-ci a été envoyée par l’entremise des services postaux des États-Unis. Le destinataire, qui connaissait au préalable les séquences d’amorces utilisées et détenait la clé de chiffrement, a fait appel à la technique d’amplification en chaîne par polymérase (PCR) pour amplifier l’ADN, ce qui lui a permis de lire et de décoder le message suivant, qui se voulait un clin d’œil à l’Histoire : « June 6 invasion: Normandy ».

Pour nous, l’intérêt de cette méthode réside dans le fait qu’elle a montré qu’il était possible de consigner de l’information de type alphanumérique sous forme d’ADN.

Il convient de mentionner que deux de ces chercheurs, en collaboration avec d’autres collègues, ont amélioré la technique en vue de l’utiliser comme moyen d’archivage en bonne et due forme (Bancroft, Bowler, Bloom et Clelland, 2001). La manière de coder de l’information (texte ou autre) dans l’ADN est semblable à celle utilisée dans la technique des micropoints, mais de nouveaux concepts sont introduits : l’ADN contenant l’information consignée est surnommé ADNi, et une « clé » constituée de multiples amorces sert à décoder l’information en question. Les techniques de la PCR et du séquençage permettent d’amplifier et d’analyser les séquences d’ADN en vue d’y extraire l’information. En outre, les chercheurs entrevoient la possibilité de conserver jusqu’à plusieurs milliers d’échantillons d’ADNi dans de petits dispositifs appelés microréseaux, ou puces à ADN, de la taille d’un timbre-poste, dont la capacité d’archivage équivaudrait à plusieurs dizaines de livres de type roman.

Ailenberg et Rotstein (2009)

Ces chercheurs sont parvenus à consigner divers types de données dans de l’ADN en utilisant tous les caractères présents sur un clavier d’ordinateur standard, ce qui ouvre davantage de possibilités comparativement à la technique précédente. Le codage de l’information repose ici aussi sur l’attribution de bases azotées à chaque caractère. Chaque caractère possède son propre « code » (appelé « codon » par les auteurs), qui correspond à un segment de la molécule d’ADN constitué d’un nombre et d’un ordre précis de bases azotées. Pour définir les codons, les chercheurs se sont inspirés de la méthode dite « de Huffman », laquelle a été mise au point par un chercheur du même nom dans le but de construire des codes composés de texte chiffré à l’aide d’un nombre minimal de symboles (voir Smith, Fiddes, Hawkins et Cox, 2003), permettant ainsi de simplifier le plus possible le codage des données. À leur tour, les codons d’ADN sont associés à des amorces spécialement conçues en vue de réduire la possibilité d’erreurs et d’accroître l’efficacité lors de la « lecture » de l’information consignée sur support ADN. Bien entendu, cette technique repose sur toute une série de manipulations en laboratoire, et de multiples produits et dispositifs sont nécessaires pour synthétiser l’ADN en question, mais les auteurs insistent sur le fait que l’extraction de l’information peut être réalisée de manière automatisée.

Grâce à cette technique, et en définissant des règles pour chaque type de données, Ailenberg et Rotstein ont pu synthétiser de l’ADN contenant une partie du texte de la comptine Mary had a little lamb et les notes de musique correspondantes. Ils ont aussi codé une « image », c’est-à-dire des coordonnées qui, lorsque décodées et transposées sur un diagramme bidimensionnel, permettent de recréer au moyen de formes géométriques très simples (cercles, rectangles, lignes) l’agneau de Mary.

Goldman et collègues (2013)

Grâce à la méthode qu’ils ont mise au point, Goldman et coll. (2013) ont pu consigner une quantité d’information beaucoup plus élevée que dans le cas des autres techniques élaborées jusqu’alors. Le codage des données s’effectue essentiellement en trois étapes. L’information est d’abord convertie sous forme numérique, soit en code binaire. Celui-ci est ensuite converti mathématiquement selon un système ternaire (0, 1 et 2) qui remplace chaque octet (ou caractère) par un « trit » composés de cinq ou six chiffres. Enfin, un appareil permet de synthétiser des chaînes d’ADN dans lesquelles chaque trit est remplacé par l’un des trois nucléotides qui diffèrent de celui utilisé pour le trit précédent. Bref, la procédure est assez complexe, quoique les résultats obtenus par ces chercheurs soient prometteurs.

Goldman et ses collègues ont mis leur méthode à l’essai en codant l’information tirée de cinq fichiers informatiques de formats différents (ASCII, PDF, JPEG et MP3), dont les 154 sonnets de Shakespeare et un court extrait du fameux discours de Martin Luther King intitulé « I have a dream », dans des chaînes d’ADN synthétique. Au total, ils ont consigné l’équivalent de 739 kilo-octets de données réparties dans plus de 153 000 chaînes d’ADN, chacune comportant 117 nucléotides. Fait notable, ils ont réussi à séquencer les morceaux d’ADN et à reconstituer le contenu des fichiers d’origine sans qu’aucune erreur ne s’y insère. Les chercheurs indiquent également que leur méthode pourrait, en théorie, servir à l’archivage de données à grande échelle et à long terme.

Il importe de souligner que les techniques présentées dans le présent travail (de même que celles que nous n’avons pas abordées) ne peuvent, pour le moment, être mises en œuvre de manière concrète, et ce, pour diverses raisons. D’une part, les coûts associés à la synthèse de l’ADN sont encore très élevés (Extance, 2016). D’autre part, la technologie actuelle ne permet pas de synthétiser de l’ADN à une échelle et à une vitesse suffisamment grandes pour concurrencer les méthodes d’archivage numérique existantes (par exemple, les supports magnétiques et optiques). Mais les acteurs de ce domaine de recherche semblent optimistes; le savoir et les technologies évoluent rapidement, de sorte que l’archivage de données sur support ADN pourrait être une pratique courante dans un avenir pas si lointain.

Conclusion : incidence sur la pratique archivistique

Si elles étaient adoptées, quelles pourraient être les répercussions de ces méthodes sur la pratique archivistique? Les futurs archivistes seraient-ils appelés à devenir des spécialistes de la biologie moléculaire afin de pouvoir maîtriser les concepts et les techniques qui sous-tendent la consignation d’information sur support ADN ?

Au fil du temps, les archivistes ont dû adapter leurs pratiques et acquérir de nouvelles connaissances et habiletés en fonction, notamment, de l’évolution des supports documentaires. À cet égard, le dernier siècle a été particulièrement mouvementé, si l’on peut dire, puisqu’il a vu l’apparition des premiers ordinateurs, puis le développement rapide de l’informatique et des outils technologiques connexes. Ces nouveaux moyens, qui permettent à la fois de produire et de consigner de l’information, ont bouleversé le travail des archivistes. Ceux-ci ont ainsi eu à se familiariser avec ces technologies et en sont venus à les utiliser à leur avantage dans le cadre de leurs activités.

Rien n’indique que, si les méthodes susmentionnées en venaient à s’imposer pour l’archivage et la conservation à long terme des données, les archivistes ne seraient pas en mesure de s’y adapter. Peut-être que des archivistes spécialisés seraient formés en vue du traitement approprié de l’information consignée sur support ADN. Du point de vue strictement pratique, le codage des données sous forme d’ADN faisant appel à des procédures largement (voire entièrement) automatisées, les archivistes seraient surtout amenés à mettre leurs connaissances technologiques à niveau, les dispositifs utilisés pouvant s’apparenter à des ordinateurs conçus pour accomplir des tâches très précises. À cette mise à niveau pourrait s’ajouter une formation visant à inculquer la théorie et les concepts fondamentaux de la biologie moléculaire. Est-il réaliste de penser que les archivistes pourront tirer profit de ces éventuelles méthodes d’archivage de l’information? Les archivistes modernes portent déjà plusieurs chapeaux : ils sont à la fois historiens, gestionnaires, informaticiens (etc.) ou, du moins, possèdent certaines des compétences propres à ces spécialités. À la lumière de ce constat, c’est par l’affirmative que nous répondons à cette question.

Sources consultées

ADN. (2012). Dans Encyclopédie de l’Agora. Repéré à http://agora.qc.ca/dossiers/ADN
Ailenberg, M. et Rotstein, O. D. (2009). An improved Huffman coding method for archiving text, images, and music characters in DNA. BioTechniques, 47(3), 747-754.
Bancroft, C., Bowler, T., Bloom, B. et Clelland, C. T. (2001). Long-Term Storage of Information in DNA. Science, 293(5536), 1763-1765.
Church, G. M., Gao, Y. et Kosuri, S. (2012). Next-Generation Digital Information Storage in DNA. Science, 337(6102), 1628.
Clelland, C. T., Risca, V. et Bancroft, C. (1999). Hiding messages in DNA microdots. Nature, 399(6736), 533-534.
Conway, P. (1996). Preservation in the Digital World (Publication no 62). Repéré sur le site du Council on Library and Information Resources : https://www.clir.org/pubs/reports/reports/conway2/index.html
Cox, J. P. L. (2001). Long-term data storage in DNA. Trends in Biotechnology, 19(7), 247-250.
Eternal 5D data storage could record the history of humankind. (2016). Repéré à http://www.southampton.ac.uk/news/2016/02/5d-data-storage-update.page
Exaoctet. (2000). Dans Le grand dictionnaire terminologique. Repéré à http://gdt.oqlf.gouv.qc.ca/ficheOqlf.aspx?Id_Fiche=8873628
Extance, A. (2016). Digital DNA – Could the molecule known for storing genetic information also store the world’s data? Nature, 537(7618), 22-24.
Goldman, N., Bertone, P., Chen, S., Dessimoz, C., LeProust, E. M., Sipos, B. et Birney, E. (2013). Towards practical, high-capacity, low-maintenance information storage in synthesized DNA. Nature, 494(7435), 77-80.
Numérique. (2003). Dans Le grand dictionnaire terminologique. Repéré à http://gdt.oqlf.gouv.qc.ca/ficheOqlf.aspx?Id_Fiche=8360889
Qu’est-ce que l’ADN? (s. d.). Repéré à http://www.lps.ens.fr/recherche/biophysique-ADN/dna1.html#rappels
Smith, G. C., Fiddes, C. C., Hawkins, J. P. et Cox, J. P. L. (2003). Some possible codes for encrypting data in DNA. Biotechnology Letters, 25(14), 1125-1130.
Un disque de verre pour stocker les données pour l’éternité (ou presque). (2016). Repéré à http://www.liberation.fr/futurs/2016/02/21/un-disque-de-verre-pour-stocker-les-donnees-pour-l-eternite-ou-presque_1434895
Waters, D. et Garrett, J. (1996). Preserving Digital Information : Report of the Task Force on Archiving of Digital Information. Washington, DC : The Commission on Preservation and Access.

MICHEL CHARTIER, étudiant

L’enjeu de la conservation

Pendant de nombreux siècles, et après avoir succédé à d’autres matières, le papier a été le principal support utilisé pour la consignation de l’information (surtout sous forme de texte, mais aussi d’images). Au papier se sont ajoutés, depuis le 19e siècle, d’autres supports, l’évolution de la technologie ayant permis de développer de nouvelles façons d’obtenir, puis de consigner l’information (par exemple, sous forme d’enregistrements sonores ou vidéo). Cette évolution s’est accélérée et a mené, dans la deuxième moitié du 20e siècle, à la création de techniques dites numériques, soit celles permettant « la production, le stockage et le traitement d’informations sous forme binaire » [c’est-à-dire des 1 et des 0] (Numérique, 2003). On parle souvent, dans ce contexte, de « révolution numérique », l’avènement de ces techniques ayant entraîné des changements importants et durables dans plusieurs aspects de la vie quotidienne, tant à l’échelle individuelle qu’à l’échelle sociétale. Au cours de l’Histoire, les archivistes, qui ont été des témoins privilégiés de l’évolution des documents, ont vu leur rôle évoluer en fonction de l’accroissement de la masse d’information produite par les individus et les organisations et de la diversification des supports utilisés pour la consigner.

L’accroissement exponentiel de l’information générée par les activités humaines et la diversification des supports créent par ailleurs un paradoxe des plus intéressants : tandis que notre capacité de consigner l’information s’est accrue avec le temps, la longévité des supports utilisés pour la conserver tend à diminuer (Conway, 1996; dans cet article, l’auteur qualifie cette situation de « dilemme », mais nous sommes d’avis que le terme « paradoxe » la décrit plus correctement). Ainsi, l’enjeu de la conservation à long terme de l’information consignée, qui concerne tous les types de supports documentaires, se pose avec encore plus d’acuité dans le cas des documents numériques. Bien qu’ils offrent l’avantage de pouvoir contenir de vastes quantités de données, les supports numériques présentent aussi plusieurs désavantages, dont les suivants : ils sont caractérisés par leur fragilité et par l’obsolescence rapide des technologies (matériel, logiciels) utilisées pour y consigner l’information (Waters et Garrett, 1996).

Afin de contourner les difficultés associées aux supports numériques, des chercheurs ont tenté de mettre au point des solutions de rechange plus stables qui offrent des capacités d’archivage de données exceptionnelles tout en assurant la conservation à très long terme de ces mêmes données. La dernière en date est celle consistant à archiver des données pentadimensionnelles (5D) dans un petit disque de verre nanostructuré de la taille d’une pièce de monnaie (Eternal 5D data storage, 2016). Cette technique, développée par des chercheurs de l’université de Southampton (Royaume-Uni), fait appel à un laser à impulsions ultracourtes pour la gravure des données à même le verre. Chaque disque a une capacité de stockage de 360 téraoctets (soit 3000 fois la capacité d’un disque Blu-Ray. Un disque de verre pour stocker les données peut résister à des températures allant jusqu’à 1000 °C et a une durée de vie théorique de 13,8 milliards d’années à une température ne dépassant pas 190 °C. De l’avis des chercheurs, cette technologie pourrait être fort utile aux organisations détenant de vastes archives, pourvu bien sûr qu’elles aient accès à l’équipement nécessaire pour la gravure (laser) et la lecture (microscope optique et polariseur) des disques.

L’une des autres solutions mises à l’essai fait l’objet du présent travail : il s’agit de l’archivage de données à l’aide d’acide désoxyribonucléique, mieux connu par son sigle : ADN.

L’ADN, support de l’information génétique

L’ADN est une molécule que l’on retrouve dans les cellules de tous les êtres vivants. On peut la représenter, d’une manière extrêmement simplifiée, sous la forme d’une échelle : les montants de l’échelle correspondent aux deux brins parallèles de la molécule d’ADN, et chaque barreau correspond à deux bases azotées liées l’une à l’autre (Encyclopédie de l’Agora, 2012; voir la figure 1). Les deux brins de cette « échelle » s’enroulent l’un autour de l’autre; la structure torsadée qui en résulte est dite « en double hélice » (Qu’est-ce que l’ADN?, s. d.). Chaque moitié de l’échelle est composée d’une succession d’éléments appelés nucléotides. Le nucléotide est constitué à son tour d’un groupement phosphate, d’un glucide et d’une base azotée (celle-ci formant l’une des deux moitiés d’un « barreau ») (Encyclopédie de l’Agora, 2012). On dénombre quatre bases azotées, soit l’adénine (A), la cytosine (C), la guanine (G) et la thymine (T), A s’appariant toujours avec T, et C avec G. Ces paires de bases azotées assurent la complémentarité des deux moitiés de la molécule d’ADN (Qu’est-ce que l’ADN?, s. d.). La succession particulière des nucléotides le long d’une molécule d’ADN est donc le support sur lequel est consignée l’information génétique.

L’ADN en tant que support documentaire?

La molécule d’ADN peut être considérée comme une sorte de « langage », l’information qu’elle contient devant être décodée par la cellule pour la synthèse des protéines dont elle a besoin, un peu à la manière d’un livre de recettes (Qu’est-ce que l’ADN?, s. d.). Vu sous cet angle, il n’est peut-être pas surprenant que certains chercheurs en soient venus à envisager la possibilité d’utiliser l’ADN pour y consigner de l’information autre que génétique.

Représentation schématisée d’un segment de molécule d’ADN. Image tirée de Wikipédia (« Acide désoxyribonucléique », repéré à https://fr.wikipedia.org/wiki/Acide_désoxyribonucléique)

Comme le souligne Cox (2001), l’ADN présente d’excellentes qualités pour le stockage de données :

Son usage à cette fin a fait ses preuves (la vie existant sur Terre depuis au moins 3,5 milliards d’années) ;
Les conditions s’y prêtant, il peut être conservé sur des périodes de l’ordre de millions d’années ;
Il a la capacité de se reproduire lui-même ;
Sa séquence de nucléotides peut contenir une quantité considérable d’information.

La « densité de mémorisation » de l’ADN est effectivement très élevée : en théorie, on pourrait y coder jusqu’à 2 bits par nucléotide, soit environ 455 exaoctets (ou 455 milliards de milliards d’octets, selon la définition d’exaoctet donnée dans Le grand dictionnaire terminologique [2000], ce qui équivaut, après conversion, à 455 millions de téraoctets, si l’on veut comparer avec le disque de verre nanostructuré mentionné précédemment) par gramme d’ADN à simple brin (Church, Gao et Kosuri, 2012).

Dans un billet ultérieur, sans aller trop loin dans les détails, nous présenterons, en ordre chronologique, quelques-unes des méthodes qui ont été élaborées dans le but de consigner de l’information au moyen d’ADN. Les sources consultées seront également mentionnées dans ce billet.

Archives 21

La gestion des documents et des archives dans le contexte de son enseignement

Archives par étiquette : ADN

L’archivage de données au moyen de l’ADN : deuxième partie