L'open data en quelques mots : une donnée libre, accessible, réutilisable
L'open data désigne l'ensemble des données numériques mises à disposition du public de façon libre, gratuite et sans restriction technique ou juridique majeure. Ces données peuvent être produites par des administrations publiques, des collectivités territoriales, des organisations internationales ou des entreprises privées qui choisissent la transparence.
Le principe de base est simple : une donnée ouverte doit pouvoir être téléchargée, analysée, modifiée et redistribuée par n'importe qui, pour n'importe quel usage. Cette liberté distingue l'open data des bases de données propriétaires, accessibles uniquement sous conditions commerciales.
En 2013, une étude McKinsey estimait que le marché mondial de l'open data représentait environ 3 000 milliards de dollars de valeur économique potentielle. Un chiffre qui dépasse largement la seule question de la transparence.
Les trois piliers d'une donnée ouverte
Disponibilité et accessibilité technique
Une donnée ouverte doit être téléchargeable dans un format lisible par une machine. CSV, JSON, XML ou RDF sont des standards acceptables. Un PDF non structuré ou un tableau scanné ne répond pas à ces critères, même mis en ligne gratuitement.
Les formats ouverts doivent être documentés publiquement, sans logiciel propriétaire pour les lire. Un fichier .xlsx reste techniquement moins ouvert qu'un .csv, même si l'usage courant tend à assouplir cette distinction.
L'accessibilité suppose aussi une infrastructure stable : API documentée, URLs pérennes, mises à jour régulières. Une donnée inaccessible en pratique n'est pas une donnée ouverte, quelle que soit sa licence.
Réutilisation et absence de restriction juridique
La dimension juridique compte autant que la dimension technique. Une donnée ouverte doit être accompagnée d'une licence explicite autorisant la réutilisation commerciale et la redistribution, avec ou sans modification.
En France, la licence Etalab (Licence Ouverte v2.0) est la référence principale pour les données publiques. À l'international, les licences Creative Commons (CC-BY, CC0) ou Open Database License (ODbL) remplissent ce rôle. Ces cadres juridiques suppriment l'ambiguïté sur ce que l'utilisateur peut faire des données.
L'obligation de mentionner la source est généralement la seule contrainte acceptable. Toute restriction supplémentaire sur l'usage commercial, la modification ou la redistribution sort du périmètre de l'open data au sens strict.
Universalité de l'accès
Troisième pilier : l'absence de discrimination. Les données ouvertes ne doivent pas nécessiter d'inscription, de justification d'usage ou d'appartenance à une catégorie particulière d'utilisateurs. Tout citoyen, chercheur, entrepreneur ou développeur doit pouvoir les obtenir dans les mêmes conditions.
D'où viennent les données ouvertes ?
Les gouvernements et administrations publiques
Le secteur public est historiquement le premier producteur d'open data. En France, la loi pour une République numérique de 2016 a imposé l'ouverture par défaut des données publiques. La plateforme data.gouv.fr, gérée par la DINUM, recense plus de 50 000 jeux de données couvrant des domaines aussi variés que la santé, les transports, le budget de l'État ou les résultats électoraux.
Au niveau européen, le portail data.europa.eu agrège les données de 36 pays membres et institutions de l'UE. Les données cadastrales, les horaires de transport, les statistiques démographiques ou les résultats d'appels d'offres publics comptent parmi les catégories les plus consultées.
Les collectivités territoriales jouent aussi un rôle croissant : Paris, Lyon, Toulouse et une centaine d'autres villes françaises publient leurs propres données sur des portails locaux ou des plateformes mutualisées.
Les organisations scientifiques et académiques
La recherche scientifique produit des quantités massives de données dont l'ouverture devient une exigence fréquente. L'ANR en France et la Commission européenne via Horizon Europe imposent désormais des plans de gestion de données prévoyant leur publication en open access.
Des plateformes comme Zenodo (CERN), Figshare ou HAL centralisent des millions de jeux de données issus de la recherche académique, en climatologie, génomique, astronomie ou sciences sociales.
Les organisations privées et la société civile
Certaines entreprises ouvrent volontairement des données, souvent pour renforcer un écosystème de partenaires, améliorer leur image ou stimuler l'innovation autour de leurs services. OpenStreetMap reste l'exemple le plus connu : une base cartographique mondiale construite et maintenue par des bénévoles, sous licence ODbL.
Des ONG comme Open Food Facts agrègent des informations sur la composition des produits alimentaires. Des projets comme Wikidata structurent des connaissances encyclopédiques sous forme de données réutilisables.
À quoi sert concrètement l'open data ?
Transparence démocratique et contrôle citoyen
La publication des budgets publics, des marchés attribués, des revenus des élus ou des données environnementales permet aux citoyens, associations et journalistes d'exercer un véritable contre-pouvoir. Le projet OpenCorporates, qui recense plus de 200 millions d'entreprises dans le monde, sert régulièrement d'outil pour des enquêtes journalistiques sur des montages fiscaux ou des conflits d'intérêts.
En France, la base TRANSPARENCE - Santé publie les liens d'intérêts entre l'industrie pharmaceutique et les professionnels de santé. Sans ces données accessibles, ce type d'information resterait hors de portée du grand public.
Innovation économique et création de services
Les données ouvertes alimentent un écosystème d'applications et de services. Les outils de navigation s'appuient sur des données cartographiques ouvertes, les startups du secteur agricole exploitent les données météorologiques et cadastrales, et les fintechs utilisent les données économiques publiques pour leurs modèles de scoring.
Une étude de la Commission européenne estimait en 2020 que le marché direct de l'open data dans l'UE atteignait 184 milliards d'euros de valeur ajoutée, avec une croissance annuelle de 10 à 15 % projetée jusqu'en 2025.
Recherche, analyse et aide à la décision
Chercheurs, think tanks et décideurs publics utilisent massivement les données ouvertes. La modélisation épidémiologique du Covid-19, les études sur les mobilités urbaines ou l'évaluation des politiques publiques reposent en grande partie sur des données publiquement accessibles.
Les data journalistes ont fait de l'open data un outil central de leur pratique. Des rédactions comme Le Monde Data, Libération Data ou The Guardian Datablog publient régulièrement des enquêtes à partir de jeux de données publics.
Les limites de l'open data
L'ouverture des données ne va pas sans obstacles. La qualité reste inégale : des informations incomplètes, mal documentées ou publiées sans métadonnées exploitables sont peu utiles, même techniquement accessibles.
La fracture numérique pose un problème structurel. Exploiter des données ouvertes demande des compétences techniques (SQL, Python, R, APIs) que seule une fraction de la population maîtrise. L'open data profite davantage aux acteurs déjà dotés en ressources numériques qu'aux citoyens ordinaires.
Les questions de vie privée constituent un autre défi. Des données anonymisées peuvent parfois être recombinées pour réidentifier des individus, un risque documenté dans plusieurs études académiques. La tension entre ouverture maximale et protection des données personnelles est permanente.
Enfin, la pérennité des publications reste problématique : des portails ferment, des APIs changent sans préavis, des jeux de données disparaissent. Stabiliser à long terme ces infrastructures est un chantier encore largement ouvert pour les institutions qui s'y engagent.