Wayback Machine
From Wikipedia, the free encyclopedia
Logo de la Wayback Machine. | |
| Adresse | web.archive.org |
|---|---|
| Commercial | Non |
| Publicité | Non |
| Type de site | Archivage du Web |
| Langue | Anglais |
| Inscription | Gratuite |
| Siège social | San Francisco |
| Propriétaire | Internet Archive |
| Créé par | Brewster Kahle |
| Lancement | [1] (24 ans, 86 jours) |
| État actuel | En activité |
| modifier |
|
La Wayback Machine (littéralement « machine à revenir en arrière ») est un site web mis à disposition par l’organisme à but non lucratif américain Internet Archive afin d'offrir un accès à des clichés instantanés de pages web stockés par l'organisme. Les archives de la Wayback Machine sont mises à la disposition de tous gratuitement. Elles permettent aux utilisateurs de la plateforme de retracer l’évolution de différents sites internet à travers le temps, ainsi que de retrouver des pages web qui n’existent plus[2].
La Wayback Machine est considéré comme la plus grande collection d’archives web à travers le monde[3]. En octobre 2025, le nombre de pages web archivées a atteint 1000 milliards et ce chiffre augmente d’environ 500 millions de pages par jour[4]. C’est approximativement 800 000 usagers à travers le monde qui visitent la Wayback Machine tous les jours[4].
Dès sa création en 1996, Internet Archive commence à capturer et enregistrer des pages web afin de les archiver. Puis, en 2001, l'équipe menée par Brewster Kahle lance la Wayback Machine, qui offre une interface publique à cette base de données qui comporte à l'époque 10 milliards de pages représentant 100 térabits de données[5].
L'appellation « Wayback Machine » renvoie à des épisodes du The Rocky and Bullwinkle Show, où M. Peabody, un chien à l'air professoral et son assistant Sherman (un animal de compagnie humain), utilisent une machine à remonter le temps appelée « WABAC Machine » pour décrire des évènements historiques célèbres.
En octobre 2024, une attaque par déni de service compromet 31 millions de comptes Wayback Machine, le service est hors service pendant plusieurs jours[6]. Les motifs ainsi que les personnes derrière cette cyberattaque ne sont pas connus[7].
Contenu
Les pages web archivées dans la Wayback Machine peuvent être préservées selon deux méthodes. Internet Archive a majoritairement recours à des robots d’indexation pour faire sa collecte de données. Anciennement, c’était principalement le robot d’indexation de la compagnie Alexa Internet qui était utilisé, mais il y a une dizaine d’années, Internet Archive a développé son propre robot d’indexation nommé Heritrix[8]. La fréquence des instantanés est variable et dépend de plusieurs facteurs dont le nombre de liens entrants vers la page concernée[9].
Depuis 2013, les utilisateurs peuvent directement faire la sauvegarde de pages web grâce à l’outil « Save Page Now ». Cette fonctionnalité a été ajoutée dans le but de démocratiser et diversifier le contenu se trouvant dans la Wayback Machine. Il est estimé que plus de 100 URL par seconde sont sauvegardées à partir de cet outil[3].
Utilisation
Initialement, la Wayback Machine était perçue comme un outil permettant d’avoir accès à du contenu provenant des liens morts que les utilisateurs pouvaient rencontrer en surfant sur le web[10]. Cependant, les utilités qu’on lui donne aujourd’hui sont beaucoup plus variées, entre autres, ce site d’archivage web peut servir à soutenir le développement de nouveaux algorithmes d'apprentissage automatique, à faire la vérification des faits, dans le but de tenir les gouvernements et les personnalités publiques responsables et à protéger la propriété intellectuelle en prouvant les cas de plagiats[3],[11]. Des preuves récupérées dans la Wayback Machine ont même déjà été admises dans plusieurs tribunaux à travers le monde[12].
La Wayback Machine est également un outil très prisé pour faire de la recherche scientifique. Entre 2000 et 2013, c’est 2593 articles, livres et autres documents qui ont été écrits au sujet de la Wayback Machine[13]. Les principaux domaines d’études ayant contribué à cette littérature sont les technologies de l’information, les sciences de l’information et les sciences sociales[13].