Wayback Machine

From Wikipedia, the free encyclopedia

Adresseweb.archive.org

Logo de la Wayback Machine.

Adresse	web.archive.org
Commercial	Non
Publicité	Non
Type de site	Archivage du Web
Langue	Anglais
Inscription	Gratuite
Siège social	San Francisco États-Unis
Propriétaire	Internet Archive
Créé par	Brewster Kahle
Lancement	29 octobre 2001^[1] (24 ans, 86 jours)
État actuel	En activité
modifier

La Wayback Machine (littéralement « machine à revenir en arrière ») est un site web mis à disposition par l’organisme à but non lucratif américain Internet Archive afin d'offrir un accès à des clichés instantanés de pages web stockés par l'organisme. Les archives de la Wayback Machine sont mises à la disposition de tous gratuitement. Elles permettent aux utilisateurs de la plateforme de retracer l’évolution de différents sites internet à travers le temps, ainsi que de retrouver des pages web qui n’existent plus^[2].

La Wayback Machine est considéré comme la plus grande collection d’archives web à travers le monde^[3]. En octobre 2025, le nombre de pages web archivées a atteint 1000 milliards et ce chiffre augmente d’environ 500 millions de pages par jour^[4]. C’est approximativement 800 000 usagers à travers le monde qui visitent la Wayback Machine tous les jours^[4].

Dès sa création en 1996, Internet Archive commence à capturer et enregistrer des pages web afin de les archiver. Puis, en 2001, l'équipe menée par Brewster Kahle lance la Wayback Machine, qui offre une interface publique à cette base de données qui comporte à l'époque 10 milliards de pages représentant 100 térabits de données^[5].

L'appellation « Wayback Machine » renvoie à des épisodes du The Rocky and Bullwinkle Show, où M. Peabody, un chien à l'air professoral et son assistant Sherman (un animal de compagnie humain), utilisent une machine à remonter le temps appelée « WABAC Machine » pour décrire des évènements historiques célèbres.

En octobre 2024, une attaque par déni de service compromet 31 millions de comptes Wayback Machine, le service est hors service pendant plusieurs jours^[6]. Les motifs ainsi que les personnes derrière cette cyberattaque ne sont pas connus^[7].

Contenu

Les pages web archivées dans la Wayback Machine peuvent être préservées selon deux méthodes. Internet Archive a majoritairement recours à des robots d’indexation pour faire sa collecte de données. Anciennement, c’était principalement le robot d’indexation de la compagnie Alexa Internet qui était utilisé, mais il y a une dizaine d’années, Internet Archive a développé son propre robot d’indexation nommé Heritrix^[8]. La fréquence des instantanés est variable et dépend de plusieurs facteurs dont le nombre de liens entrants vers la page concernée^[9].

Depuis 2013, les utilisateurs peuvent directement faire la sauvegarde de pages web grâce à l’outil « Save Page Now ». Cette fonctionnalité a été ajoutée dans le but de démocratiser et diversifier le contenu se trouvant dans la Wayback Machine. Il est estimé que plus de 100 URL par seconde sont sauvegardées à partir de cet outil^[3].

Utilisation

Initialement, la Wayback Machine était perçue comme un outil permettant d’avoir accès à du contenu provenant des liens morts que les utilisateurs pouvaient rencontrer en surfant sur le web^[10]. Cependant, les utilités qu’on lui donne aujourd’hui sont beaucoup plus variées, entre autres, ce site d’archivage web peut servir à soutenir le développement de nouveaux algorithmes d'apprentissage automatique, à faire la vérification des faits, dans le but de tenir les gouvernements et les personnalités publiques responsables et à protéger la propriété intellectuelle en prouvant les cas de plagiats^[3]^,^[11]. Des preuves récupérées dans la Wayback Machine ont même déjà été admises dans plusieurs tribunaux à travers le monde^[12].

La Wayback Machine est également un outil très prisé pour faire de la recherche scientifique. Entre 2000 et 2013, c’est 2593 articles, livres et autres documents qui ont été écrits au sujet de la Wayback Machine^[13]. Les principaux domaines d’études ayant contribué à cette littérature sont les technologies de l’information, les sciences de l’information et les sciences sociales^[13].

Limites

Bien qu’il existe plusieurs autres projets similaires à travers le monde, la Wayback Machine se différencie par le fait que ses créateurs ont l’aspiration de sauvegarder toutes les pages web existantes, et cela sans discrimination^[3]. Malgré tout, il existe un certain nombre de facteurs qui complexifient le développement de cette collection d’archives :

La Wayback Machine préserve principalement les pages HTML, puisque certaines méthodes de codages, telles que le JavaScript, sont plus difficiles à archiver^[14]. Les pages web dynamiques présentent un grand défi pour les robots d’indexation tel que Heritrix. Ce dernier n’est pas en mesure de performer les interactions nécessaires pour initier des scripts côté serveur, ce qui empêche Heritrix de récupérer du contenu provenant d’une base de données^[15].
Peu de contenu est sauvegardé à l’extérieur du monde occidental^[16]. Une raison pouvant expliquer cette situation est que l’algorithme d’exploration utilisé par Internet Archive utilise les hyperliens trouvés sur les pages web déjà indexées afin de trouver de nouveaux sites internet^[17]. Les pays dont les pages web sont peu liées peuvent donc être sous-représentés^[18].
Les pages web payantes et les sites dont les propriétaires ont demandé d’être retirés de la Wayback Machine ne sont pas sauvegardés^[19]. Depuis 2002, Internet Archive suit la Oakland Archive Policy, qui est une politique qui encadre les paramètres selon lesquels les auteurs ou les éditeurs peuvent faire la demande pour que leurs documents cessent d’être disponibles dans les archives web. Une fois mise en place, cette exclusion est rétroactive et permanente^[20].
Certaines pages web sauvegardées dans la Wayback Machine peuvent contenir des inconsistances temporales. Dans le cas où certains éléments nécessaires à la reconstitution d’une page web selon une date spécifique ne soient pas disponibles, le logiciel de la Wayback Machine remplace les éléments manquants par d’autres éléments qui sont disponibles à la date de sauvegarde la plus rapprochée^[21]. Comme il peut se passer plusieurs semaines ou plusieurs mois entre les sauvegardes d’une page web, la page qui est présentée aux utilisateurs ne reflète pas un instant précis, mais est plutôt constituée de fragments provenant de moments différents^[21].

Notes et références

↑ (en) « WayBackMachine.org WHOIS, DNS, & Domain Info - DomainTools », sur WayBackMachine.org, 29 octobre 2001 (consulté le 27 mai 2025).
↑ (en) Jamie Murphy, Noor Hazarina Hashim et Peter O’Connor, « Take Me Back: Validating the Wayback Machine », Journal of Computer-Mediated Communication, vol. 13, n^o 1,‎ octobre 2007, p. 60–75 (DOI 10.1111/j.1083-6101.2007.00386.x, lire en ligne, consulté le 5 novembre 2025)
1 2 3 4 (en) Jessica Ogden, Edward Summers et Shawn Walker, « Know(ing) Infrastructure: The Wayback Machine as object and instrument of digital research », Convergence, vol. 30, n^o 1,‎ 2023, p. 167–189 (ISSN 1354-8565, DOI 10.1177/13548565231164759, lire en ligne, consulté le 5 novembre 2025)
1 2 Bruno Textier, « Internet Archive franchit le cap des 1 000 milliards de pages web archivées », sur Archimag, 20 octobre 2025 (consulté le 5 novembre 2025)
↑ (en-GB) Jack Schofield, « Internet archive allows you to travel back through the history of a website », The Guardian,‎ 19 novembre 2007 (ISSN 0261-3077, lire en ligne, consulté le 15 janvier 2019)
↑ Mathilde Grattepanche, « Cyberattaque majeure : Wayback Machine hors service, 31 millions de comptes compromis », sur Abondance, 11 octobre 2024 (consulté le 25 mars 2025)
↑ (en) Kevin Collier, « The Internet Archive has faced a barrage of cyberattacks », sur NBC News, 14 octobre 2024 (consulté le 5 novembre 2025)
↑ (en) Surya Bowyer, « The Wayback Machine: notes on a re-enchantment », Archival Science, vol. 21, n^o 1,‎ 2021, p. 43–57 (ISSN 1573-7500, DOI 10.1007/s10502-020-09345-w, lire en ligne, consulté le 5 novembre 2025)
↑ (en) Kalev Leetaru, « The Internet Archive Turns 20: A Behind The Scenes Look At Archiving The Web », sur Forbes (consulté le 15 janvier 2019)
↑ (en) Anat Ben-David et Hugo Huurdeman, « Web Archive Search as Research: Methodological and Theoretical Implications », Alexandria, vol. 25, n^os 1-2,‎ 2014, p. 93–111 (ISSN 0955-7490, DOI 10.7227/ALX.0022, lire en ligne, consulté le 5 novembre 2025)
↑ David Pearce et Bruce G. Charlton, « Plagiarism of online material may be proven using the Internet Archive Wayback Machine (archive.org) », Medical Hypotheses, vol. 73, n^o 6,‎ 2009, p. 875 (ISSN 0306-9877, DOI 10.1016/j.mehy.2009.07.049, lire en ligne, consulté le 5 novembre 2025)
↑ (en) Darryl Mead, « Creating disinformation: Archiving fake links on the Wayback Machine viewed through the lens of routine activity theory », First Monday, vol. 28, n^o 10,‎ 2023 (ISSN 1396-0466, DOI 10.5210/fm.v28i10.13154, lire en ligne, consulté le 5 novembre 2025)
1 2 (en) Sanjay K. Arora, Yin Li, Jan Youtie et Philip Shapira, « Using the wayback machine to mine websites in the social sciences: A methodological resource », Journal of the Association for Information Science and Technology, vol. 67, n^o 8,‎ 2016, p. 1904–1915 (ISSN 2330-1643, DOI 10.1002/asi.23503, lire en ligne, consulté le 5 novembre 2025)
↑ (en) Justin F. Brunelle, Mat Kelly, Michele C. Weigle et Michael L. Nelson, « The impact of JavaScript on archivability », International Journal on Digital Libraries, vol. 17, n^o 2,‎ 1^er juin 2016, p. 95–117 (ISSN 1432-1300, DOI 10.1007/s00799-015-0140-8, lire en ligne, consulté le 5 novembre 2025)
↑ Sophie Gebeil et Jean-Christophe Peyssard, Exploring the Archived Web during a Highly Transformative Age: Proceedings of the 5th international RESAW conference, Marseille, June 2023, Firenze, Firenze University Press, 2024, 364 p. (ISBN 979-12-215-0413-2, lire en ligne)
↑ (en-GB) Chris Stokel-Walker, « We're losing our digital history. Can the Internet Archive save it? », sur BBC, 16 septembre 2024 (consulté le 5 novembre 2025)
↑ (en) Mike Ananny, « Toward an Ethics of Algorithms: Convening, Observation, Probability, and Timeliness », Science, Technology, & Human Values, vol. 41, n^o 1,‎ 2015, p. 93–117 (ISSN 0162-2439, DOI 10.1177/0162243915606523, lire en ligne, consulté le 5 novembre 2025)
↑ Mike Thelwall et Liwen Vaughan, « A fair history of the Web? Examining country balance in the Internet Archive », Library & Information Science Research, vol. 26, n^o 2,‎ 1^er mars 2004, p. 162–176 (ISSN 0740-8188, DOI 10.1016/j.lisr.2003.12.009, lire en ligne, consulté le 5 novembre 2025)
↑ (en) Judy Tong, « RESPONSIBLE PARTY -- BREWSTER KAHLE; A Library Of the Web, On the Web », New York Times,‎ 8 septembre 2002 (lire en ligne, consulté le 5 novembre 2025)
↑ Holly Andersen, « A Website Owner's Practice Guide to the Wayback Machine », Journal on Telecommunications & High Technology Law, vol. 11, n^o 1,‎ 2013, p. 251-278 (lire en ligne)
1 2 (en) Niels Brügger, The Archived Web: Doing History in the Digital Age, The MIT Press, 2018 (ISBN 978-0-262-35011-2, DOI 10.7551/mitpress/10726.001.0001, lire en ligne)

Wayback Machine

Contenu

Utilisation

Limites

Notes et références

Voir aussi

Articles connexes

Liens externes

Related Articles