Pourquoi la recherche académique a besoin de l'open data
La crise de la reproductibilité frappe la science depuis une décennie. Une étude publiée dans Nature en 2016 révélait que plus de 70 % des chercheurs avaient échoué à reproduire les expériences d'autres équipes. L'open data répond à ce problème de manière structurelle, pas simplement comme une tendance éditoriale.
Rendre ses données accessibles ne se limite pas à un geste de transparence. C'est un acte méthodologique qui renforce la validité des travaux, facilite la méta-analyse et accélère la production de connaissances collectives. Les institutions de financement l'ont compris : le Fonds National Suisse, l'ANR et le programme Horizon Europe exigent désormais des plans de gestion de données (PGD) comme condition de financement.
Les principes FAIR : ce qu'ils signifient vraiment
Avant de publier un jeu de données, tout chercheur doit connaître les principes FAIR, formulés en 2016 dans Scientific Data. Ces quatre critères définissent ce que signifie rendre des données réellement utilisables.
Findable, Accessible, Interoperable, Reusable
Les quatre exigences, sans hiérarchie entre elles :
- Findable : les données sont indexables via des métadonnées riches et un identifiant persistant (DOI, ARK, Handle).
- Accessible : le protocole d'accès est ouvert et documenté, même si les données sont soumises à des restrictions légitimes.
- Interoperable : les formats sont standards et lisibles par des machines (CSV, JSON, RDF plutôt que XLS ou PDF).
- Reusable : une licence explicite accompagne chaque jeu de données, sans ambiguïté juridique.
Un dataset FAIR n'est pas forcément un dataset entièrement ouvert. Des données médicales peuvent être FAIR tout en étant protégées par un accès contrôlé. Ce qui compte : la traçabilité et la clarté des conditions d'utilisation.
Comment citer correctement un jeu de données
La citation des données reste trop souvent négligée dans les publications académiques. Pourtant, elle conditionne la visibilité des producteurs de données et la reproductibilité des études.
L'anatomie d'une citation de données
Une citation complète comprend au minimum cinq éléments :
- L'auteur ou l'organisation productrice (personne physique ou institution)
- L'année de publication ou de dernière mise à jour
- Le titre du jeu de données, distinct du titre de l'article associé
- Le dépôt : Zenodo, Figshare, Dryad, DataSuds, Nakala, etc.
- L'identifiant persistant, de préférence un DOI cliquable
Exemple au format APA adapté aux données :
Dupont, M., & Leclerc, S. (2023). Mesures de qualité de l'air urbain – Région Île-de-France 2019-2022 [Jeu de données]. Zenodo. https://doi.org/10.5281/zenodo.XXXXXXX
Quel identifiant persistant choisir
Le DOI reste le standard dominant, notamment via DataCite qui en attribue spécifiquement pour les datasets. Zenodo, opéré par le CERN, en émet gratuitement et les comités de rédaction le reconnaissent sans difficultés. L'identifiant doit pointer vers une ressource stable dans le temps, indépendante des hébergements institutionnels qui peuvent changer.
Où déposer ses données de recherche
Le choix du dépôt conditionne la pérennité, la visibilité et la conformité réglementaire de vos données.
Les dépôts généralistes
Zenodo héberge plus de 2,5 millions de dossiers de recherche et accepte des fichiers jusqu'à 50 Go par enregistrement. Son intégration avec GitHub facilite le versionnage des codes et données associés. Figshare offre une interface plus soignée et s'intègre aux workflows éditoriaux de revues comme PLOS ONE ou Nature.
Dryad se spécialise dans les sciences du vivant et exige une publication associée, ce qui renforce la traçabilité mais exclut les dépôts exploratoires.
Les dépôts disciplinaires et nationaux
Pour la recherche française, Nakala (Huma-Num) s'adresse aux sciences humaines et sociales. SEANOE couvre les données océanographiques. DataSuds (IRD) est dédié aux données issues des terrains du Sud global.
Ces dépôts disciplinaires proposent souvent des métadonnées spécialisées plus pertinentes qu'un dépôt généraliste, et facilitent la découverte par des communautés spécifiques.
Licences de données : éviter les pièges juridiques
Publier sans licence équivaut à interdire la réutilisation. Les droits d'auteur l'impliquent par défaut dans la plupart des juridictions. Choisir explicitement une licence n'est donc pas une formalité.
Les licences Creative Commons pour les données
- CC0 (Public Domain Dedication) : aucune restriction, recommandée pour la science ouverte maximale.
- CC BY 4.0 : réutilisation libre avec obligation de citation.
- CC BY-SA 4.0 : réutilisation libre avec partage dans les mêmes conditions.
- CC BY-NC 4.0 : exclut les usages commerciaux. À éviter pour la recherche, car elle bloque de nombreux partenariats.
La licence Open Database License (ODbL) convient aux bases de données relationnelles, notamment si vous souhaitez imposer le partage des dérivés (c'est le choix d'OpenStreetMap).
Ce que dit la loi pour la recherche publique
En France, la loi pour une République numérique (2016) impose aux organismes publics de publier leurs données sous licence ouverte par défaut. La Licence Ouverte / Open Licence 2.0 de l'État français est compatible avec CC BY et reconnue par les grandes plateformes d'open data gouvernementales.
Reproduire une étude : les bonnes pratiques concrètes
La reproductibilité se prépare dès la phase de collecte.
Documenter pour des inconnus
Documentez vos données comme si vous les remettiez à quelqu'un qui ne connaît ni votre terrain, ni votre équipement, ni votre protocole. Un fichier README structuré doit accompagner tout dépôt et inclure la description des variables, les unités de mesure, les valeurs manquantes, les conditions d'acquisition et le contexte géographique ou temporel.
Les outils comme Frictionless Data permettent de créer des data packages standardisés avec validation automatique des schémas. Un fichier datapackage.json décrit chaque champ de manière lisible par les machines, ce qui facilite l'intégration dans des pipelines analytiques tiers.
Versionnage et traçabilité
Un jeu de données évolue. Adoptez un système de versionnage explicite (v1.0, v1.1, v2.0) avec un changelog associé. Zenodo gère nativement les versions tout en préservant les DOI antérieurs : les articles qui citent une version précise restent valides même après mise à jour.
Ne supprimez jamais une version publiée. Même si des erreurs ont été identifiées, la version corrigée doit coexister avec l'originale, accompagnée d'un avertissement explicite dans les métadonnées.
Intégrer l'open data dans le cycle de publication
Les journaux à fort impact intègrent des exigences de partage de données dans leurs politiques éditoriales. Science, Nature, PLOS ONE et des dizaines de revues disciplinaires demandent un data availability statement dans chaque article.
Ce paragraphe standardisé indique où trouver les données, sous quelle licence et avec quel identifiant. Certaines revues vont plus loin : Scientific Data (Nature) publie des data descriptors, des articles entièrement consacrés à la description d'un jeu de données, reconnus comme publications à part entière dans les évaluations académiques.
Le dépôt de données génère désormais des métriques de citation distinctes des articles. Des outils comme DataCite Event Data ou ImpactStory tracent ces citations, ce qui permet d'inclure les datasets dans les dossiers de candidature académique (HDR, ANR, ERC).
Ce que change l'open data pour la carrière académique
Partager ses données n'est plus un risque de se faire « voler » ses résultats. Les publications accompagnées de données ouvertes reçoivent en moyenne 25 % de citations supplémentaires, selon plusieurs méta-analyses récentes. C'est une stratégie de visibilité, pas un sacrifice.
Les chercheurs qui partagent activement leurs données gagnent une réputation de rigueur méthodologique. Leurs données alimentent des analyses que leur équipe n'aurait pas pu mener seule, et ils deviennent des nœuds dans des réseaux de collaboration qui dépassent leur laboratoire. L'open data transforme la recherche d'un jeu à somme nulle en infrastructure cumulative.