Archivado web

El archivado web es el proceso de recolección de fracciones o partes de la World Wide Web y la garantía de que la información se conserve en un archivo o sistema de información para futuros investigadores, historiadores y el público en general.^[1] En este proceso se suelen emplear rastreadores web para la captura automatizada debido al enorme tamaño y cantidad de información en la web. La organización de archivado web más grande es Wayback Machine, la cual se basa en un enfoque de rastreo masivo para tratar de mantener un archivo de toda la web.

Debido a la creciente porción de la cultura humana creada y registrada en la web, las bibliotecas y los archivos reconocen al archivado web como una parte esencial de sus prácticas.^[2] Las bibliotecas nacionales, los archivos nacionales y varios consorcios de organizaciones participan en el archivado de contenido web culturalmente importante.

También existe software y servicios comerciales de archivado web para las organizaciones que necesitan archivar su propio contenido web con fines normativos, legales o de herencia corporativa.

Si bien la conservación y organización de la web ha sido prevalente desde los mediados y fines de la década de 1990, uno de los primeros proyectos de archivado web a gran escala fue Internet Archive, una organización sin fines de lucro creada en 1996 por Brewster Kahle.^[3] En 2001, Internet Archive lanzó Wayback Machine, su propio motor de búsqueda para visualizar contenido web archivado.^[3] En el 2018, Internet Archive albergaba 40 petabytes de datos.^[4] Internet Archive también desarrolló muchas de sus propias herramientas para recopilar y almacenar sus datos, incluido PetaBox para almacenar grandes cantidades de datos de manera eficiente y segura, y Heritrix, un rastreador web desarrollado en conjunto con las bibliotecas nacionales nórdicas.^[3] Otros proyectos que iniciaron al mismo tiempo incluyeron un proyecto de archivo web de la Biblioteca Nacional de Canadá, Pandora de Australia, archivos web de Tasmania y Kulturarw3 de Suecia.^[5]^[6] En España, la Biblioteca Nacional de España inició el Archivo de la Web Española en 2009.^[7] A finales de 2013, la Biblioteca Nacional de Chile desarrolló un proyecto piloto de archivado web, el cual se ha ampliado en los últimos años.^[8]

El Consorcio Internacional de Preservación de Internet (IIPC), establecido en 2003, ha facilitado la colaboración internacional en el desarrollo de estándares y herramientas de código abierto para la creación de archivos web.^[9] Actualmente, más de 30 países forman parte del IIPC.^[10]La ya desaparecida Internet Memory Foundation se fundó en 2004 por la Comisión Europea para archivar la web en Europa.^[3] Este proyecto desarrolló herramientas de código abierto para captura de medios enriquecidos, coherencia de análisis temporal, evaluación de spam y detección de la evolución de la terminología.^[3] Los datos de la fundación ahora están alojados en el Internet Archive, pero actualmente no son de acceso público.^[11]

Recolección de la web

Los archivistas web generalmente archivan varios tipos de contenido web, incluyendo páginas web en HTML, hojas de estilo, JavaScript, imágenes y videos. También archivan metadatos sobre los recursos recopilados, como el tiempo de acceso, el tipo MIME y la duración del contenido. Estos metadatos son útiles para establecer la autenticación de la colección archivada.

Métodos de recolección

Dificultades y limitaciones

Rastreadores

Los archivos web que recurren al rastreo web como medio principal para recopilar la web enfrentan las dificultades del rastreo web:

El estándar de exclusión de robots puede solicitar a los rastreadores que no accedan a partes de un sitio web. Algunos archivos web ignoran esta solicitud y rastrean esas partes de todos modos.
Grandes porciones de un sitio web pueden estar ocultas en la Internet profunda. Por ejemplo, la página de resultados detrás de un formulario web puede estar en la Internet profunda si los rastreadores no pueden seguir un enlace a la página de resultados.
Las trampas de rastreadores (por ejemplo, los calendarios) pueden hacer que un rastreador descargue una cantidad infinita de páginas, por lo que los rastreadores generalmente se configuran para limitar la cantidad de páginas dinámicas que rastrean.
La mayoría de las herramientas de archivado no capturan la página tal como es. Los banners publicitarios y las imágenes a menudo se pasan por alto durante el proceso de archivado.

Sin embargo, un archivo web de formato nativo, es decir, un archivo web totalmente navegable, con enlaces que funcionen, imágenes, videos, etc., solo es realmente posible utilizando la tecnología de rastreo.

Asimismo, la Web es tan grande que rastrear una parte importante de ella requiere una gran cantidad de recursos técnicos. Como la Web cambia tan rápidamente, es posible que partes de un sitio web se actualicen antes de que un rastreador haya terminado de rastrearlo, lo cual puede provocar errores y elementos faltantes en el sitio web archivado.^[12]

Limitaciones generales

Algunos servidores web están configurados para mostrar páginas diferentes a las solicitudes del rastreador web de lo que lo harían en respuesta a las solicitudes regulares del navegador. Esto generalmente se hace para engañar a los motores de búsqueda para que dirijan más tráfico de usuarios a un sitio web y, a menudo, se hace para evitar la responsabilidad o para proporcionar contenido mejorado solo a aquellos navegadores que pueden mostrarlo.

Además de los desafíos técnicos del archivado web, también existen los desafíos relacionados con las leyes de propiedad intelectual. Peter Lyman afirma que aunque la Web se considera popularmente como un recurso de dominio público, tiene derechos de autor; por lo tanto, los archivos no tienen ningún derecho legal para copiar la Web.^[13] Sin embargo, las bibliotecas nacionales de algunos países tienen el derecho legal de copiar partes de la web bajo una extensión de un depósito legal.^[14]

Algunos archivos web privados sin fines de lucro con acceso público, tales como WebCite, Internet Archive o Internet Memory Foundation, permiten que los propietarios del contenido oculten o eliminen contenido archivado al que no quieren que el público tenga acceso. Otros archivos web solo son accesibles desde ciertas ubicaciones o tienen un uso regulado.

Recolección de la web

Métodos de recolección

Cosecha remota

Dificultades y limitaciones

Rastreadores

Limitaciones generales

Referencias

Related Articles