Actualités

Archivage du web français : pour que rien ne se perde !

Archivage du web français : pour que rien ne se perde !

La mémoire du web français fait l’objet, depuis deux décennies, d’un archivage minutieux permettant de rassembler, indexer, classer et conserver des milliards de fichiers web dans des conditions permettant d’assurer leur pérennité pour les générations à venir. Et c’est la BNF (Bibliothèque Nationale de France) qui remplit ce rôle de conservateur de la mémoire du web français, en partenariat avec des institutions internationales comme la fondation Internet Archive notamment. Eclairage…

26 milliards de fichiers archivés à la BNF

Née aux Etats-Unis en octobre 1996, cette idée d’archiver le web a rapidement gagné du terrain dans l’Hexagone. Le premier projet d’archivage de la Bibliothèque nationale de France, piloté par Julien Masanès, a commencé en 2000. Dans les sous-sols de la Bibliothèque nationale François-Mitterrand, ce sont plus de 668 téraoctets (To) d’archives qui sont stockées, soit l’équivalent de 26 milliards de fichiers.

Au sein du département numérique de la BNF, Masanès s’est d’abord attelé à archiver les sites dédiés à l’élection présidentielle de 2002, pour ensuite élargir son champ d’action aux autres sites. Il entrera par la suite en contact avec Brewster Kahle, le cofondateur d’Internet Archive, qui a accepté de céder à la BNF ses archives du web français collectés depuis 1996.

Un projet qui pose de nombreuses questions

Ce chantier, pour le moins titanesque, a posé dans ses débuts, de nombreux points d’interrogation. Comment distinguer les sites appartenant au web français ? Méritent-ils tous d’être archivés ? A quelle fréquence ? La BNF a tenté d’apporter des réponses à ces questions essentielles en faisant appel à la sphère professionnelle mais aussi académique pour mener à bien ce projet ambitieux.

Ainsi, en partenariat avec plusieurs institutions dont l’Afnic, l’association gestionnaire des noms de domaine en « .fr », la BNF a rassemblé une base de 4,5 millions de noms de domaines français représentatifs de la diversité et de l’évolution du web français, qu’elle photographie une fois par an en prenant soin de collecter le plus de données possibles. Les sites et les thématiques ciblés sont choisis par des chargés de collection. Chaque année, 120 To d’archives s’ajoutent aux 668 To déjà stockés. Ceux-ci sont soigneusement conservés dans les locaux de la BNF, et une copie est conservée dans un lieu tenu secret. Aujourd’hui, et malgré les énormes progrès réalisés en matière d’archivage du web en France et dans le monde, de nombreuses difficultés se posent. Comment les responsables de l’archivage vont-ils gérer la déferlante des données qui circulent sur les différents réseaux sociaux ? Mais surtout, comment inciter les pays qui n’archivent pas le web à prendre part à cette passionnante aventure ? Affaire à suivre…