Archives mensuelles : juin 2017

Boîte à outils portables : logiciels nécessaires à la création d’un SIP

DOMINIC BOISVERT, chargé de cours

« Oui, mais on fait quoi lorsque notre organisme est trop petit ou n’a pas les moyens d’acheter ou même d’installer un logiciel libre pour gérer les dépôts ou les versements de documents numériques ? »

Cette question, les étudiants qui suivent le cours Gestion des archives numériques (ARV3054) me la posent régulièrement. En toute légitimité, ils veulent savoir s’il est possible créer un SIP ou un AIP (Administration Information Package) sans logiciel de type serveur comme Archivematica ? Eh bien, oui, c’est possible… mais, pour ce faire, ils devront utiliser des logiciels libres qui ne nécessitent pas d’installation et adopter une procédure qu’ils suivront avec assiduité.

Et c’est justement l’objet de ce billet : l’identification des logiciels nécessaires à la création d’un SIP (System Information Package). [1]

LES LOGICIELS POUR CRÉER UN SIP

D’abord, qu’est-ce qu’un SIP ? Le SIP est le paquet d’information à archiver du modèle OAIS (Open Archives Information System). Il s’agit ni plus ni moins qu’un projet de dépôt ou de versement de documents d’archives numériques.

Voici les logiciels que nous utiliserons pour réaliser notre SIP :

  • 7zip, pour décompresser les fichiers existants, si nécessaire ;
  • ClamAV, pour s’assurer de ne pas archiver de virus ;
  • DROID, pour identifier les fichiers qui nous voulons archiver [2] ;
  • Bagger, pour faire le sac du SIP [2].

Une fois les logiciels téléchargés, veuillez les copier sur une clé USB en ayant soin de renommer les répertoires des logiciels ainsi :

  • 01_7zip
  • 02_ClamAV
  • 03_DROID
  • 04_Bagger

Comme vous l’aurez sans doute deviné, les chiffres précédés de la barre de soulignement représentent l’ordre d’exécution des logiciels dans notre procédure de création d’un SIP.

Vous vous demandez peut-être pourquoi nous recommandons de copier les logiciels sur un clé USB ? En effet, vous pourriez très bien les installer sur votre poste de travail. Par contre, vous pourriez être appelé à vous déplacer chez les producteurs et devoir alors travailler sur les postes de ceux-ci. Il arrive aussi que l’archiviste ou le producteur n’ait pas les privilèges nécessaires pour installer des logiciels sur leurs ordinateurs. Voilà pourquoi les applications portables vous permettront de travailler sans laisser de traces sur l’ordinateur du producteur.

LA PROCÉDURE POUR CRÉER UN SIP

Les logiciels sont tous présents sur la clé USB et les répertoires sont identifiés avec le numéro de l’étape d’utilisation.

Étape 0 : Créez un répertoire de travail temporaire que vous nommerez « SIP_AAAA-MM-JJ ».

Étape 1 : Déplacez les dossiers et les documents à traiter dans le répertoire de travail temporaire. Si nécessaire, décompressez les dossiers à traiter pour créer votre SIP avec 7zip ou le logiciel de décompression intégré dans le système d’exploitation de l’ordinateur.

Étape 2 : Démarrez ClamAV en vous assurant de mettre à jour la base de données de l’anti-virus. Puis, analysez le répertoire de travail temporaire.

  • Si ClamAV vous indique que tout va bien, fermez ClamAV et passez à l’étape 3.
  • Si ClamAV découvre un fichier infecté par un virus, alors isolez ce fichier en le plaçant dans un répertoire de quarantaine en prenant soin de ne pas l’inclure dans les étapes suivantes. Passer à l’étape 3.

Étape 3 : Démarrez DROID en vous assurant de mettre à jour la base de données des formats de fichiers. Puis, analysez le répertoire de travail temporaire. Ensuite, sauvegardez le résultat de l’analyse dans le répertoire de travail temporaire sous le nom « SIP_AAAA-MM-JJ_DROID.csv ». Fermez DROID.

Étape 4 :  Démarrez Bagger et créez un sac en format zip. Ajoutez les métadonnées nécessaires au traitement du SIP, puis enregistrez le sac en le nommant : « SIP_AAAA-MM-JJ.zip »

Étape 5. Après vous être assuré que le fichier SIP_AAAA-MM-JJ.zip est complet (vous pouvez l’analyser avec Bagger), vous devez supprimer le répertoire de travail temporaire.

Ajoutez un élément distinctif à la fin du nom de vos SIP si vous devez créer plus d’un SIP dans la même journée. Cet élément peut identifier le producteur ou être simplement un numéro séquentiel (l’identification du producteur est déjà l’une des métadonnées de votre sac Bagger).

Vous pourriez sauter l’étape 3 avec DROID et ne faire l’analyse des formats de fichiers que lors du traitement du SIP pour en faire un AIP. Personnellement, je préfère réaliser l’analyse immédiatement pour exclure certains types de fichiers (les fichiers temporaires, par exemple).

CONCLUSION

La gestion des archives numériques sans suite logicielle s’avère possible. Il suffit d’établir nos objectifs et de dénicher les logiciels qui nous permettront de les atteindre une étape à la fois.

Dans un prochain billet, nous verrons comment paramétrer Bagger pour que les métadonnées du sac reflètent les informations de votre bordereau de dépôt ou de versement.

Notes

[1] Ce billet de blogue s’inspire librement d’un article intitulé Practical Digital Preservation: In-House Solutions to Digital Preservation for Small Institutions de Tyller McNally.

[1] Les logiciels DROID et Bagger nécessitent l’installation de  JAVA. Vous pouvez utiliser la version Jportable si JAVA n’est pas installé sur l’ordinateur à partir duquel vous exécuterez la procédure.

Archives-moi : un réseau social dédié à la diffusion des archives

DANIEL DUCHARME, chargé de cours

Simon Côté-Lapointe : Création inspirée du mouvement Dada créé à partir d’archives. Exemple d’un remix diffusé sur Archives-moi.

Archives-moi est une initiative de deux jeunes archivistes qui ont pris la décision de ne pas attendre après l’État pour s’occuper des documents patrimoniaux des citoyens. Certes, d’autres services d’archives, comme Archives Passe-Mémoire (APM), notamment, jouent aussi ce rôle en acquérant, traitant, conservant et diffusant les écrits personnels de citoyens qui ont traversé l’existence sans nécessairement occuper une position de prestige dans l’échiquier sociétal. Mais APN procède à l’ancienne en ne collectant que des écrits majoritairement – pour ne pas dire exclusivement – sous forme papier. Cela ne leur enlève rien, remarquez, car leurs archives sont anciennes aussi, et cela a l’avantage de leur permettre de les diffuser. Comme on sait, les écrits personnels regorgent de données à caractère personnel, justement… et, en tant qu’archivistes, il est de notre devoir de les protéger. Et je n’aborderai même pas la question du droit d’auteur qui complique davantage les choses…

Bref, APN joue un rôle essentiel dans la préservation de la mémoire intime de certains Québécois, mais Archives-moi adopte une autre approche, une approche davantage dans l’ère du temps, plus ludique, plus conviviale, moins axée sur la conservation, davantage sur la diffusion. Le projet consiste à élaborer une plateforme collaborative dédiée à la diffusion des archives, un lieu virtuel où tout un chacun pourra y déposer ses archives personnelles numériques et/ou numérisées. On aura compris que l’enjeu n’est pas la conservation du patrimoine (encore que…) mais plutôt sa diffusion à grande échelle sur les réseaux sociaux. D’ailleurs, Priscilla Boisvert et Michel Carrière, les instigateurs du projet, n’hésitent pas à parler de leur application comme d’un « futur réseau social des nostalgiques ».

Les deux jeunes archivistes (dont l’un d’entre eux a étudié à l’EBSI) sont à la recherche d’un financement participatif et, pour ce faire, ont lancé une campagne sur Kickstarter. Ils ont besoin d’un coup de pouce de la part de la communauté. C’est donc le moment ou jamais de démontrer votre intérêt pour les archives autrement que par de vaines paroles qui ne passeront pas à l’histoire… Allez leur donner un coup de pouce en participant au financement du projet ! Pour ce faire, suivez les liens ci-dessous:

L’archivage de données au moyen de l’ADN : deuxième partie

MICHEL CHARTIER, étudiant

Ce texte est d’une version modifée d’un travail a été réalisé à l’EBSI, Université de Montréal, dans le cadre du cours ARV1050 – Introduction à l’archivistique donné au trimestre d’automne 2016 par Daniel Ducharme.

Dans un billet précédent, nous avons posé la problématique de la conservation des documents en soulignant la possibilité de recourir à l’ADN comme moyen éventuel de conservation. Dans ce billet, sans aller trop loin dans les détails, nous présenterons, en ordre chronologique, quelques-unes des méthodes qui ont été élaborées dans le but de consigner de l’information au moyen d’ADN.

Clelland et collègues (1999)

Cette première méthode n’a pas été mise au point dans le but d’archiver des données. Il s’agit néanmoins de l’une des premières à utiliser de l’ADN pour coder des messages (l’information), et c’est pourquoi nous l’abordons ici.

Selon Clelland, Risca et Bancroft (1999), elle s’inspire de la stéganographie, technique développée par le professeur Zapp et utilisée durant la Deuxième Guerre mondiale par les espions allemands pour transmettre des messages secrets. Elle consistait à photographier une page dactylographiée, à réduire considérablement la photo pour ainsi obtenir un « micropoint », puis à coller celui-ci sur un point (signe de ponctuation) dans une lettre anodine.

Ces chercheurs ont utilisé la technique stéganographique pour coder un message de type textuel dans un échantillon d’ADN et pour dissimuler ce dernier dans un micropoint. Le message est codé dans un brin d’ADN au moyen d’une clé de chiffrement, où les lettres de l’alphabet, les nombres de 1 à 9 et certains signes de ponctuation correspondent chacun à un triplet de bases azotées distinct (p. ex., A=CGA, B=CCA et ainsi de suite). Le message est associé à des séquences d’amorces, lesquelles servent à synthétiser le brin complémentaire d’ADN, et donc à « lire » le message. Une minuscule gouttelette de solution contenant 225 nanogrammes d’ADN humain, y compris le brin contenant le message caché, est ensuite versée sur un point imprimé sur du papier filtre. Dans cette expérience, des micropoints produits de cette manière ont été fixés à des points dans une lettre, puis celle-ci a été envoyée par l’entremise des services postaux des États-Unis. Le destinataire, qui connaissait au préalable les séquences d’amorces utilisées et détenait la clé de chiffrement, a fait appel à la technique d’amplification en chaîne par polymérase (PCR) pour amplifier l’ADN, ce qui lui a permis de lire et de décoder le message suivant, qui se voulait un clin d’œil à l’Histoire : « June 6 invasion: Normandy ».

Pour nous, l’intérêt de cette méthode réside dans le fait qu’elle a montré qu’il était possible de consigner de l’information de type alphanumérique sous forme d’ADN.

Il convient de mentionner que deux de ces chercheurs, en collaboration avec d’autres collègues, ont amélioré la technique en vue de l’utiliser comme moyen d’archivage en bonne et due forme (Bancroft, Bowler, Bloom et Clelland, 2001). La manière de coder de l’information (texte ou autre) dans l’ADN est semblable à celle utilisée dans la technique des micropoints, mais de nouveaux concepts sont introduits : l’ADN contenant l’information consignée est surnommé ADNi, et une « clé » constituée de multiples amorces sert à décoder l’information en question. Les techniques de la PCR et du séquençage permettent d’amplifier et d’analyser les séquences d’ADN en vue d’y extraire l’information. En outre, les chercheurs entrevoient la possibilité de conserver jusqu’à plusieurs milliers d’échantillons d’ADNi dans de petits dispositifs appelés microréseaux, ou puces à ADN, de la taille d’un timbre-poste, dont la capacité d’archivage équivaudrait à plusieurs dizaines de livres de type roman.

Ailenberg et Rotstein (2009)

Ces chercheurs sont parvenus à consigner divers types de données dans de l’ADN en utilisant tous les caractères présents sur un clavier d’ordinateur standard, ce qui ouvre davantage de possibilités comparativement à la technique précédente. Le codage de l’information repose ici aussi sur l’attribution de bases azotées à chaque caractère. Chaque caractère possède son propre « code » (appelé « codon » par les auteurs), qui correspond à un segment de la molécule d’ADN constitué d’un nombre et d’un ordre précis de bases azotées. Pour définir les codons, les chercheurs se sont inspirés de la méthode dite « de Huffman », laquelle a été mise au point par un chercheur du même nom dans le but de construire des codes composés de texte chiffré à l’aide d’un nombre minimal de symboles (voir Smith, Fiddes, Hawkins et Cox, 2003), permettant ainsi de simplifier le plus possible le codage des données. À leur tour, les codons d’ADN sont associés à des amorces spécialement conçues en vue de réduire la possibilité d’erreurs et d’accroître l’efficacité lors de la « lecture » de l’information consignée sur support ADN. Bien entendu, cette technique repose sur toute une série de manipulations en laboratoire, et de multiples produits et dispositifs sont nécessaires pour synthétiser l’ADN en question, mais les auteurs insistent sur le fait que l’extraction de l’information peut être réalisée de manière automatisée.

Grâce à cette technique, et en définissant des règles pour chaque type de données, Ailenberg et Rotstein ont pu synthétiser de l’ADN contenant une partie du texte de la comptine Mary had a little lamb et les notes de musique correspondantes. Ils ont aussi codé une « image », c’est-à-dire des coordonnées qui, lorsque décodées et transposées sur un diagramme bidimensionnel, permettent de recréer au moyen de formes géométriques très simples (cercles, rectangles, lignes) l’agneau de Mary.

Goldman et collègues (2013)

Grâce à la méthode qu’ils ont mise au point, Goldman et coll. (2013) ont pu consigner une quantité d’information beaucoup plus élevée que dans le cas des autres techniques élaborées jusqu’alors. Le codage des données s’effectue essentiellement en trois étapes. L’information est d’abord convertie sous forme numérique, soit en code binaire. Celui-ci est ensuite converti mathématiquement selon un système ternaire (0, 1 et 2) qui remplace chaque octet (ou caractère) par un « trit » composés de cinq ou six chiffres. Enfin, un appareil permet de synthétiser des chaînes d’ADN dans lesquelles chaque trit est remplacé par l’un des trois nucléotides qui diffèrent de celui utilisé pour le trit précédent. Bref, la procédure est assez complexe, quoique les résultats obtenus par ces chercheurs soient prometteurs.

Goldman et ses collègues ont mis leur méthode à l’essai en codant l’information tirée de cinq fichiers informatiques de formats différents (ASCII, PDF, JPEG et MP3), dont les 154 sonnets de Shakespeare et un court extrait du fameux discours de Martin Luther King intitulé « I have a dream », dans des chaînes d’ADN synthétique. Au total, ils ont consigné l’équivalent de 739 kilo-octets de données réparties dans plus de 153 000 chaînes d’ADN, chacune comportant 117 nucléotides. Fait notable, ils ont réussi à séquencer les morceaux d’ADN et à reconstituer le contenu des fichiers d’origine sans qu’aucune erreur ne s’y insère. Les chercheurs indiquent également que leur méthode pourrait, en théorie, servir à l’archivage de données à grande échelle et à long terme.

Il importe de souligner que les techniques présentées dans le présent travail (de même que celles que nous n’avons pas abordées) ne peuvent, pour le moment, être mises en œuvre de manière concrète, et ce, pour diverses raisons. D’une part, les coûts associés à la synthèse de l’ADN sont encore très élevés (Extance, 2016). D’autre part, la technologie actuelle ne permet pas de synthétiser de l’ADN à une échelle et à une vitesse suffisamment grandes pour concurrencer les méthodes d’archivage numérique existantes (par exemple, les supports magnétiques et optiques). Mais les acteurs de ce domaine de recherche semblent optimistes; le savoir et les technologies évoluent rapidement, de sorte que l’archivage de données sur support ADN pourrait être une pratique courante dans un avenir pas si lointain.

Conclusion : incidence sur la pratique archivistique

Si elles étaient adoptées, quelles pourraient être les répercussions de ces méthodes sur la pratique archivistique? Les futurs archivistes seraient-ils appelés à devenir des spécialistes de la biologie moléculaire afin de pouvoir maîtriser les concepts et les techniques qui sous-tendent la consignation d’information sur support ADN ?

Au fil du temps, les archivistes ont dû adapter leurs pratiques et acquérir de nouvelles connaissances et habiletés en fonction, notamment, de l’évolution des supports documentaires. À cet égard, le dernier siècle a été particulièrement mouvementé, si l’on peut dire, puisqu’il a vu l’apparition des premiers ordinateurs, puis le développement rapide de l’informatique et des outils technologiques connexes. Ces nouveaux moyens, qui permettent à la fois de produire et de consigner de l’information, ont bouleversé le travail des archivistes. Ceux-ci ont ainsi eu à se familiariser avec ces technologies et en sont venus à les utiliser à leur avantage dans le cadre de leurs activités.

Rien n’indique que, si les méthodes susmentionnées en venaient à s’imposer pour l’archivage et la conservation à long terme des données, les archivistes ne seraient pas en mesure de s’y adapter. Peut-être que des archivistes spécialisés seraient formés en vue du traitement approprié de l’information consignée sur support ADN. Du point de vue strictement pratique, le codage des données sous forme d’ADN faisant appel à des procédures largement (voire entièrement) automatisées, les archivistes seraient surtout amenés à mettre leurs connaissances technologiques à niveau, les dispositifs utilisés pouvant s’apparenter à des ordinateurs conçus pour accomplir des tâches très précises. À cette mise à niveau pourrait s’ajouter une formation visant à inculquer la théorie et les concepts fondamentaux de la biologie moléculaire. Est-il réaliste de penser que les archivistes pourront tirer profit de ces éventuelles méthodes d’archivage de l’information? Les archivistes modernes portent déjà plusieurs chapeaux : ils sont à la fois historiens, gestionnaires, informaticiens (etc.) ou, du moins, possèdent certaines des compétences propres à ces spécialités. À la lumière de ce constat, c’est par l’affirmative que nous répondons à cette question.

Sources consultées

  • ADN. (2012). Dans Encyclopédie de l’Agora. Repéré à http://agora.qc.ca/dossiers/ADN
  • Ailenberg, M. et Rotstein, O. D. (2009). An improved Huffman coding method for archiving text, images, and music characters in DNA. BioTechniques, 47(3), 747-754.
  • Bancroft, C., Bowler, T., Bloom, B. et Clelland, C. T. (2001). Long-Term Storage of Information in DNA. Science, 293(5536), 1763-1765.
  • Church, G. M., Gao, Y. et Kosuri, S. (2012). Next-Generation Digital Information Storage in DNA. Science, 337(6102), 1628.
  • Clelland, C. T., Risca, V. et Bancroft, C. (1999). Hiding messages in DNA microdots. Nature, 399(6736), 533-534.
  • Conway, P. (1996). Preservation in the Digital World (Publication no 62). Repéré sur le site du Council on Library and Information Resources : https://www.clir.org/pubs/reports/reports/conway2/index.html
  • Cox, J. P. L. (2001). Long-term data storage in DNA. Trends in Biotechnology, 19(7), 247-250.
  • Eternal 5D data storage could record the history of humankind. (2016). Repéré à http://www.southampton.ac.uk/news/2016/02/5d-data-storage-update.page
  • Exaoctet. (2000). Dans Le grand dictionnaire terminologique. Repéré à http://gdt.oqlf.gouv.qc.ca/ficheOqlf.aspx?Id_Fiche=8873628
  • Extance, A. (2016). Digital DNA – Could the molecule known for storing genetic information also store the world’s data? Nature, 537(7618), 22-24.
  • Goldman, N., Bertone, P., Chen, S., Dessimoz, C., LeProust, E. M., Sipos, B. et Birney, E. (2013). Towards practical, high-capacity, low-maintenance information storage in synthesized DNA. Nature, 494(7435), 77-80.
  • Numérique. (2003). Dans Le grand dictionnaire terminologique. Repéré à http://gdt.oqlf.gouv.qc.ca/ficheOqlf.aspx?Id_Fiche=8360889
  • Qu’est-ce que l’ADN? (s. d.). Repéré à http://www.lps.ens.fr/recherche/biophysique-ADN/dna1.html#rappels
  • Smith, G. C., Fiddes, C. C., Hawkins, J. P. et Cox, J. P. L. (2003). Some possible codes for encrypting data in DNA. Biotechnology Letters, 25(14), 1125-1130.
  • Un disque de verre pour stocker les données pour l’éternité (ou presque). (2016). Repéré à http://www.liberation.fr/futurs/2016/02/21/un-disque-de-verre-pour-stocker-les-donnees-pour-l-eternite-ou-presque_1434895
  • Waters, D. et Garrett, J. (1996). Preserving Digital Information : Report of the Task Force on Archiving of Digital Information. Washington, DC : The Commission on Preservation and Access.