Archivado web
From Wikipedia, the free encyclopedia
El archivado web es el proceso de recolección de fracciones o partes de la World Wide Web y la garantía de que la información se conserve en un archivo o sistema de información para futuros investigadores, historiadores y el público en general.[1] En este proceso se suelen emplear rastreadores web para la captura automatizada debido al enorme tamaño y cantidad de información en la web. La organización de archivado web más grande es Wayback Machine, la cual se basa en un enfoque de rastreo masivo para tratar de mantener un archivo de toda la web.
Debido a la creciente porción de la cultura humana creada y registrada en la web, las bibliotecas y los archivos reconocen al archivado web como una parte esencial de sus prácticas.[2] Las bibliotecas nacionales, los archivos nacionales y varios consorcios de organizaciones participan en el archivado de contenido web culturalmente importante.
También existe software y servicios comerciales de archivado web para las organizaciones que necesitan archivar su propio contenido web con fines normativos, legales o de herencia corporativa.

Si bien la conservación y organización de la web ha sido prevalente desde los mediados y fines de la década de 1990, uno de los primeros proyectos de archivado web a gran escala fue Internet Archive, una organización sin fines de lucro creada en 1996 por Brewster Kahle.[3] En 2001, Internet Archive lanzó Wayback Machine, su propio motor de búsqueda para visualizar contenido web archivado.[3] En el 2018, Internet Archive albergaba 40 petabytes de datos.[4] Internet Archive también desarrolló muchas de sus propias herramientas para recopilar y almacenar sus datos, incluido PetaBox para almacenar grandes cantidades de datos de manera eficiente y segura, y Heritrix, un rastreador web desarrollado en conjunto con las bibliotecas nacionales nórdicas.[3] Otros proyectos que iniciaron al mismo tiempo incluyeron un proyecto de archivo web de la Biblioteca Nacional de Canadá, Pandora de Australia, archivos web de Tasmania y Kulturarw3 de Suecia.[5][6] En España, la Biblioteca Nacional de España inició el Archivo de la Web Española en 2009.[7] A finales de 2013, la Biblioteca Nacional de Chile desarrolló un proyecto piloto de archivado web, el cual se ha ampliado en los últimos años.[8]
El Consorcio Internacional de Preservación de Internet (IIPC), establecido en 2003, ha facilitado la colaboración internacional en el desarrollo de estándares y herramientas de código abierto para la creación de archivos web.[9] Actualmente, más de 30 países forman parte del IIPC.[10]La ya desaparecida Internet Memory Foundation se fundó en 2004 por la Comisión Europea para archivar la web en Europa.[3] Este proyecto desarrolló herramientas de código abierto para captura de medios enriquecidos, coherencia de análisis temporal, evaluación de spam y detección de la evolución de la terminología.[3] Los datos de la fundación ahora están alojados en el Internet Archive, pero actualmente no son de acceso público.[11]
Recolección de la web
Los archivistas web generalmente archivan varios tipos de contenido web, incluyendo páginas web en HTML, hojas de estilo, JavaScript, imágenes y videos. También archivan metadatos sobre los recursos recopilados, como el tiempo de acceso, el tipo MIME y la duración del contenido. Estos metadatos son útiles para establecer la autenticación de la colección archivada.