Archivo de datos de investigación

El archivo de datos de investigación es el almacenamiento a largo plazo de datos de investigación académica, incluidas las ciencias naturales, las ciencias sociales y las ciencias de la vida. Este proceso implica la preservación, curación y facilitación del acceso a los conjuntos de datos que respaldan los hallazgos científicos, permitiendo su verificación, replicación y reutilización por parte de la comunidad investigadora.^[1]

Las diversas revistas académicas tienen políticas diferentes con respecto a la cantidad de datos y métodos que los investigadores deben almacenar en un archivo público. Lo que realmente se archiva varía ampliamente entre las diferentes disciplinas. Del mismo modo, las principales instituciones que otorgan subvenciones tienen actitudes diferentes hacia el archivo público de datos.

En general, la tradición de la ciencia ha sido que las publicaciones contengan información suficiente para permitir que otros investigadores repliquen y, por lo tanto, prueben la investigación. En los últimos años, este enfoque se ha vuelto cada vez más tenso, ya que la investigación en algunas áreas depende de grandes conjuntos de datos que no pueden replicarse fácilmente de forma independiente.^[2]

El archivado de datos es más importante en algunos campos que en otros. En ciertas disciplinas, todos los datos necesarios para replicar el trabajo ya están disponibles en el artículo de la revista. En cambio, en el desarrollo de medicamentos, se genera una gran cantidad de datos que deben archivarse para que los investigadores puedan verificar que los informes publicados por las compañías farmacéuticas reflejan con precisión los datos originales.^[3]

Historia

El requisito del archivo de datos es un desarrollo reciente en la historia de la ciencia. Fue posible gracias a los avances en la tecnología de la información que permitieron almacenar y acceder a grandes cantidades de datos desde ubicaciones centralizadas. Por ejemplo, la Unión Geofísica Americana (AGU) adoptó su primera política sobre el archivo de datos en 1993, unos tres años después del comienzo de la WWW.^[4] Esta política exige que los conjuntos de datos citados en los documentos de AGU sean archivados por un centro de datos reconocido; permite la creación de "documentos de datos"; y establece el papel de AGU en el mantenimiento de archivos de datos. Sin embargo, no se exige a los autores de artículos que archiven sus datos.

Antes de la existencia de archivos de datos organizados, los investigadores que deseaban evaluar o replicar un artículo tenían que solicitar datos y métodos directamente al autor. La comunidad académica esperaba que los autores compartieran datos suplementarios. Este proceso fue reconocido como un desperdicio de tiempo y energía y obtenía resultados mixtos. La información podía perderse o corromperse con los años. En algunos casos, los autores simplemente se negaban a proporcionar la información solicitada.^[5]

La necesidad de archivar datos y realizar la debida diligencia aumenta considerablemente cuando la investigación aborda problemas de salud o la formación de políticas públicas.^[3]

Políticas seleccionadas por revistas

A continuación se presentan ejemplos representativos de políticas de archivo de datos adoptadas por revistas científicas de diferentes disciplinas.

Biotropica

Biotropica requiere, como condición para la publicación, que los datos que respaldan los resultados en el documento y los metadatos que los describen se archiven en un archivo público apropiado como Dryad, Figshare, GenBank, TreeBASE o NCBI. Los autores pueden optar por hacer que los datos estén disponibles públicamente tan pronto como se publique el artículo o, si la tecnología del archivo lo permite, prohibir el acceso a los datos hasta tres años después de la publicación del artículo. Se incluirá una declaración que describa la Disponibilidad de datos en el manuscrito tal como se describe en las instrucciones para los autores. Se pueden otorgar excepciones al archivo de datos requerido a discreción del Editor en Jefe para estudios que incluyen información confidencial (por ejemplo, la ubicación de especies en peligro de extinción). Promover una cultura de colaboración con investigadores que recopilan y archivan datos: Los datos recopilados por los biólogos tropicales son a menudo a largo plazo, complejos y caros de recopilar. La Junta de Editores de Biotropica recomienda encarecidamente a los autores que reutilizan conjuntos de datos archivados de archivos de datos que incluyan como colaboradores totalmente comprometidos a los científicos que los recopilaron originalmente. Creemos que esto mejorará en gran medida la calidad y el impacto de la investigación resultante al aprovechar los profundos conocimientos del recolector de datos sobre la historia natural del sistema de estudio, reducir el riesgo de errores en los análisis novedosos y estimular la colaboración interdisciplinaria e intercultural.

Biotropica

NB: Biotropica es una de las pocas revistas que paga las tarifas para los autores que depositan datos en Dryad.

The American Naturalist

The American Naturalist requiere que los autores depositen los datos asociados con los documentos aceptados en un archivo público. Para los datos de secuencia génica y los árboles filogenéticos, se requiere la deposición en GenBank o TreeBASE, respectivamente. Hay muchos archivos posibles que pueden adaptarse a un conjunto de datos en particular, incluido el repositorio Dryad para datos de biología ecológica y evolutiva. Todos los números de acceso para GenBank, TreeBASE y Dryad deben incluirse en los manuscritos aceptados antes de pasar a Producción. Si los datos se depositan en otro lugar, proporcione un enlace. Si los datos se obtienen de la literatura publicada, deposite los datos recopilados en Dryad para la comodidad de sus lectores. Cualquier impedimento para el intercambio de datos debe señalarse a la atención de los editores en el momento de la presentación para que se puedan resolver los arreglos apropiados.

The American Naturalist

Journal of Heredity

Los datos primarios que subyacen a las conclusiones de un artículo son críticos para la verificabilidad y transparencia de la empresa científica, y deben conservarse en forma utilizable durante décadas en el futuro. Por esta razón, el Journal of Heredity requiere que las secuencias de nucleótidos o aminoácidos recientemente reportadas y las coordenadas estructurales se envíen a las bases de datos públicas apropiadas (por ejemplo, GenBank; la Base de datos de secuencias de nucleótidos EMBL; Base de datos de ADN de Japón; la Protein Data Bank; y Swiss-Prot). Los números de acceso deben incluirse en la versión final del manuscrito. Para otras formas de datos (por ejemplo, genotipos de microsatélites, mapas de enlaces, imágenes), la revista respalda los principios de la Política Conjunta de Archivo de Datos (JDAP) para alentar a todos los autores a archivar conjuntos de datos primarios en un archivo público apropiado, como Dryad, TreeBASE, o la Red de conocimiento para la biocomplejidad. Se alienta a los autores a que hagan públicos los datos al momento de la publicación o, si la tecnología del archivo lo permite, optar por bloquear el acceso a los datos por un período de hasta un año después de la publicación. La American Genetic Association también reconoce la gran inversión de investigadores individuales en la generación y conservación de grandes conjuntos de datos. En consecuencia, recomendamos que esta inversión se respete en análisis secundarios o metanálisis con un espíritu de colaboración amable.

Journal of Heredity

Molecular Ecology

Molecular Ecology espera que los datos que respaldan los resultados en el documento se archiven en un archivo público apropiado, como GenBank, Gene Expression Omnibus, TreeBASE, Dryad, Knowledge Network for Biocomplexity, su propio repositorio institucional o financiador, o como información de respaldo en el sitio web de Molecular Ecology. Los datos son productos importantes de la empresa científica, y deberían conservarse y utilizarse durante décadas en el futuro. Los autores pueden optar por tener los datos a disposición del público al momento de la publicación o, si la tecnología del archivo lo permite, pueden optar por bloquear el acceso a los datos por un período de hasta un año después de la publicación. Se pueden otorgar excepciones a discreción del editor, especialmente para información confidencial como datos de sujetos humanos o la ubicación de especies en peligro de extinción.

Nature

Dicho material debe estar alojado en un sitio independiente acreditado (URL y números de acceso a ser proporcionados por el autor), o enviado a la revista Nature en el momento del envío, ya sea cargado a través del servicio de envío en línea de la revista, o si los archivos son demasiado grandes o en un formato inadecuado para este propósito, en CD/DVD (cinco copias). Dicho material no puede ser alojado únicamente en el sitio web personal o institucional de un autor. Nature requiere que el revisor determine si se han archivado todos los datos y métodos complementarios. La política aconseja a los revisores que consideren varias preguntas, que incluyen: ¿Se debe pedir a los autores que proporcionen métodos o datos complementarios para acompañar el documento en línea? (Estos datos pueden incluir el código fuente para estudios de modelado, protocolos experimentales detallados o derivaciones matemáticas).

Nature^[6]

Science

Science apoya los esfuerzos de las bases de datos que agregan datos publicados para el uso de la comunidad científica. Por lo tanto, antes de la publicación, se deben depositar grandes conjuntos de datos (incluidos datos de microarrays, secuencias de proteínas o ADN y coordenadas atómicas o mapas de microscopía electrónica para estructuras macromoleculares) en una base de datos aprobada y se debe proporcionar un número de acceso para su inclusión en el documento publicado. "Materiales y métodos" - Science ahora solicita que, en general, los autores coloquen la mayor parte de su descripción de materiales y métodos en línea como material de apoyo, proporcionando solo la descripción de métodos en el manuscrito impreso que sea necesaria para seguir la lógica del texto (obviamente, esta restricción no se aplicará si el documento es fundamentalmente un estudio de un nuevo método o técnica).

Science^[7]

Royal Society

Para permitir que otros verifiquen y desarrollen el trabajo publicado en las revistas Royal Society, es una condición de publicación que los autores pongan a disposición los datos, el código y los materiales de investigación que respaldan los resultados del artículo. Los conjuntos de datos y el código deben depositarse en un repositorio apropiado, reconocido y disponible al público. Cuando no exista un repositorio específico de datos, los autores deben depositar sus conjuntos de datos en un repositorio general como Dryad o Figshare.

Royal Society^[8]

Journal of Archaeological Science

La Journal of Archaeological Science ha tenido una política de divulgación de datos desde al menos 2013. Su política establece que 'todos los datos relacionados con el artículo deben estar disponibles en archivos complementarios o depositados en repositorios externos y vinculados dentro del artículo'. La política recomienda que los datos se depositen en un repositorio como el Archaeology Data Service, la Digital Archaeological Record (tDAR), o PANGAEA. Un estudio de 2018 encontró una tasa de disponibilidad de datos del 53%, lo que refleja una débil aplicación de esta política o una comprensión incompleta entre los editores, revisores y autores de cómo interpretar e implementar esta política.^[9]

Políticas de agencias de financiación

Las principales agencias de financiación de la investigación han establecido requisitos para la gestión y el archivo de datos:

Políticas de archivo de datos por agencia de financiación
Agencia	Requisito	Referencia
National Science Foundation (NSF, EE. UU.)	Los investigadores deben presentar un Plan de gestión de datos (DMP) de dos páginas como parte de la solicitud de subvención.	^[10]
National Institutes of Health (NIH, EE. UU.)	Requiere el depósito de datos en repositorios aprobados, con planes específicos según el tipo de investigación (genómica, clínica, etc.).	^[11]
Deutsche Forschungsgemeinschaft (DFG, Alemania)	Exige que los datos de investigación se archiven en la propia institución del investigador o en una infraestructura nacional adecuada durante al menos 10 años.	^[12]
European Research Council (ERC)	Requiere que los datos de investigación se depositen en un repositorio de acceso abierto tan pronto como sea posible después de la publicación.	^[13]
UK Research and Innovation (UKRI)	Exige un plan de gestión de datos y el depósito en repositorios reconocidos, con un período de embargo limitado.	^[14]

Además, la iniciativa NSF Datanet ha resultado en la financiación del proyecto de la Red de Observación de Datos para la Tierra (DataONE), que proporciona archivo de datos científicos para datos ecológicos y ambientales producidos por científicos de todo el mundo. El objetivo declarado de DataONE es preservar y proporcionar acceso a datos a escala múltiple, multidisciplinaria y multinacional.

El British Digital Curation Centre (DCC) mantiene una visión general actualizada de las políticas de datos de los financiadores a nivel internacional.^[15]

Archivos y repositorios de datos

Los datos de investigación se archivan en bibliotecas de datos, archivos de datos o repositorios digitales. Estos pueden ser:

Repositorios disciplinares: especializados en un campo específico (ej. GenBank para secuencias genéticas, Protein Data Bank para estructuras de proteínas, PANGAEA para ciencias de la tierra).
Repositorios institucionales: alojados por universidades o centros de investigación para preservar la producción científica de sus miembros.
Repositorios generalistas: aceptan datos de cualquier disciplina (ej. Dryad, Figshare, Zenodo, Dataverse).

El Registry of Research Data Repositories (re3data.org) mantiene un catálogo global de repositorios de datos de investigación.^[16]

Desafíos y buenas prácticas

A pesar de los avances, el archivo de datos enfrenta varios desafíos:^[1]

Falta de incentivos: los investigadores a menudo no reciben reconocimiento académico por archivar y curar datos.
Costos: el almacenamiento y la curación a largo plazo requieren recursos financieros sostenidos.
Estandarización: la falta de metadatos y formatos comunes dificulta la interoperabilidad.
Privacidad y ética: los datos sensibles (humanos, ubicaciones de especies amenazadas) requieren controles de acceso.
Cumplimiento: muchas políticas de revistas y financiadores no se aplican rigurosamente.

Las buenas prácticas incluyen: elaborar un plan de gestión de datos, documentar adecuadamente los metadatos, elegir repositorios confiables con políticas de preservación claras, asignar identificadores persistentes (DOIs) y respetar los principios FAIR (Findable, Accessible, Interoperable, Reusable).^[17]