Data paper
publication scientifique décrivant un ensemble de jeu de données particulier ou un groupe d'ensembles de données
From Wikipedia, the free encyclopedia
Un data paper, aussi appelé article de données (mais aussi data descriptor, data article, data briefs, resource announcements, data resource profile) est un type de publication scientifique évalué par les pairs. Il a pour objectifs de décrire et documenter la construction d'un jeu de données et les réutilisations possibles. Les data papers ont pris leur essor avec le mouvement de la science ouverte et les principes FAIR.
Historique
La naissance des data paper part du constat que les données qui construisent une publication scientifique sont au moins aussi importantes que la publication, notamment pour refaire les analyses et faciliter leur réutilisation[1]. Ils sont d'abord publiés en sciences du vivant avant de se diffuser plus largement, notamment en sciences humaines, avec les demandes des financeurs publics, dès 2019[2]. Ils prennent place dans le contexte des principes FAIR qui visent que les données soient « Facile à trouver, Accessible, Interopérable et Réutilisable »[3].
Description
La structure d'un data paper contient généralement les informations suivantes : présentation du jeu de données, manière dont il a été construit, qualité et originalité des données, comment on peut accéder aux données et ses réutilisations[4]. Il est en général préparé par le plan de gestion de données en amont du projet[5]. Le data paper est publié dans un data journal. Il est lié à un entrepôt de données, où sont stockées les données décrites par le data paper, et à un article scientifique qui présente les résultats scientifiques obtenus.
Avantages des data papers
Les data papers valorisent tout le travail de création des données[6]. Cette publication participe à la transparence, la reproductibilité, la traçabilité et la visibilité des processus de recherche[6]. Ils augmentent la réutilisation des données et la diffusion des méthodes entre disciplines dans un contexte où une importante part des données sont issues de fonds publics[7].