Qu'est-ce que l'Open Data ? Définition et principes fondateurs
L'Open Data, ou données ouvertes, désigne des données numériques accessibles à tous, sans restriction d'utilisation, de redistribution ou de réutilisation. Le concept repose sur une conviction simple : les données produites par des organismes publics, financées par des fonds collectifs, appartiennent à l'ensemble des citoyens.
La définition de référence est celle de l'Open Knowledge Foundation : une donnée est véritablement ouverte si elle est disponible librement, dans un format exploitable et modifiable, sous une licence permettant son utilisation commerciale comme non commerciale. Ces trois critères, accessibilité, exploitabilité, liberté d'usage, non, plutôt : l'accessibilité, l'exploitabilité et la liberté d'usage forment le socle de tout écosystème open data sérieux.
Les 8 principes de Sebastopol (2007)
En décembre 2007, trente experts réunis à Sebastopol, en Californie, ont posé les bases théoriques de l'open data gouvernemental. Leurs huit principes restent la référence mondiale :
- Complètes : les données doivent être intégrales, sans filtrage arbitraire
- Primaires : issues directement de la source, non agrégées
- Fraîches : mises à jour dans des délais pertinents
- Accessibles : disponibles au plus grand nombre possible
- Exploitables : dans un format permettant le traitement automatisé
- Non discriminatoires : accessibles sans identification préalable
- Non propriétaires : dans des formats ouverts, non contrôlés par un seul acteur
- Sans licence restrictive : libres de droits ou sous licence ouverte
Ces principes ont directement influencé les législations adoptées depuis, notamment en Europe et aux États-Unis.
Le cadre juridique de l'Open Data en France et en Europe
La loi Lemaire et ses implications (2016)
En France, la loi pour une République numérique du 7 octobre 2016 a instauré le principe d'ouverture par défaut des données publiques pour les administrations de plus de 3 500 agents ou 50 millions d'euros de budget. La publication des données devient la règle, pas l'exception.
La loi a aussi précisé le rôle de la Commission d'accès aux documents administratifs (CADA) et confié à la mission Etalab la coordination nationale de l'ouverture des données publiques françaises. Le portail data.gouv.fr, lancé en 2011, reste la plateforme nationale de référence.
Le règlement européen sur les données (Data Governance Act)
Au niveau européen, le Data Governance Act, entré en vigueur en juin 2022 et applicable depuis septembre 2023, établit un cadre harmonisé pour le partage des données entre États membres. Il vise à faciliter la réutilisation des données détenues par le secteur public, notamment les données sensibles (santé, justice, transport) jusqu'ici exclues des dispositifs d'ouverture.
La directive PSI (Public Sector Information), révisée en 2019 sous le nom de directive Open Data, oblige les États membres à rendre accessibles gratuitement les données gouvernementales de haute valeur. Six catégories sont prioritaires : données géospatiales, météo, mobilité, statistiques, entreprises et observation de la Terre.
Les acteurs de l'écosystème Open Data
Les producteurs de données
L'écosystème open data repose sur trois grandes catégories de producteurs. Les administrations publiques en forment historiquement le noyau : collectivités locales, ministères, établissements publics. En France, plus de 40 000 jeux de données sont référencés sur data.gouv.fr, couvrant des domaines aussi variés que le cadastre, les statistiques de santé ou les horaires de transport.
Les entreprises privées investissent progressivement ce terrain, soit sous contrainte réglementaire (opérateurs de transport, producteurs d'énergie), soit volontairement pour des raisons de transparence ou pour développer des communautés d'utilisateurs. Google, OpenStreetMap Foundation ou Météo-France illustrent cette diversité d'approches.
Les organisations de recherche et les universités forment le troisième pilier. Des initiatives comme Zenodo (CERN) ou HAL (CNRS) permettent le dépôt et le partage de données scientifiques dans une logique de science ouverte, distincte mais complémentaire de l'open data gouvernemental.
Les réutilisateurs : qui exploite ces données ?
Les réutilisateurs forment un écosystème aussi hétérogène que les producteurs. On distingue plusieurs profils.
Les développeurs et startups s'appuient sur des données ouvertes pour construire des applications mobiles ou des services numériques. Les applications de calcul d'itinéraire exploitent les données GTFS des réseaux de transport. Des services météo alternatifs agrègent des données publiques pour proposer des interfaces différenciées.
Les journalistes de données et les médias d'investigation utilisent régulièrement data.gouv.fr ou Eurostat pour alimenter leurs enquêtes chiffrées. Le Monde, Libération ou Mediapart y ont recours. Le data journalism est devenu une compétence éditoriale à part entière.
Les chercheurs et universitaires exploitent les données ouvertes pour alimenter leurs modèles, tester des hypothèses ou reproduire des études. L'INSEE, le SDES ou l'OCDE publient des données structurées qui nourrissent directement la recherche en économie, sociologie ou géographie.
Les citoyens et associations représentent une catégorie souvent sous-estimée. Des projets comme OpenFoodFacts (données nutritionnelles) ou OpenStreetMap (cartographie collaborative) montrent qu'une communauté citoyenne peut produire des bases de données d'une richesse comparable aux sources institutionnelles.
Formats, licences et qualité des données
Les formats de données ouvertes
La qualité d'un jeu de données ouvert se mesure notamment par son format. Tim Berners-Lee a proposé en 2010 un système de notation à 5 étoiles qui fait référence :
- 1 étoile : données disponibles en ligne, dans n'importe quel format
- 2 étoiles : données structurées et lisibles par machine (ex : Excel)
- 3 étoiles : format non propriétaire (ex : CSV)
- 4 étoiles : utilisation de standards du web (URI, RDF)
- 5 étoiles : données liées à d'autres jeux de données (Linked Data)
En pratique, l'essentiel des données publiées aujourd'hui se situe entre 3 et 4 étoiles. Le CSV reste le format le plus répandu pour sa simplicité, mais le JSON-LD et le RDF progressent dans les usages avancés (Knowledge Graphs, web sémantique).
Licences ouvertes : comprendre les différences
En France, deux licences dominent l'open data public. La Licence Ouverte 2.0 (Etalab), très permissive, autorise toute réutilisation y compris commerciale, avec simple mention de la source. La licence ODbL (Open Database License), popularisée par OpenStreetMap, impose en plus le partage à l'identique : toute base dérivée doit être publiée sous la même licence.
Le choix entre ces deux licences a des conséquences concrètes. L'ODbL protège davantage la communauté contributrice mais peut freiner certaines réutilisations commerciales. La Licence Ouverte maximise la diffusion mais expose les données à une appropriation sans retour communautaire.
Les enjeux stratégiques de l'Open Data
Transparence et lutte contre la corruption
La publication des données sur les marchés publics, via le portail des données essentielles des marchés publics en France, permet à tout citoyen d'analyser l'attribution de contrats par les collectivités. Des outils comme DataESR permettent de suivre les financements de la recherche publique.
Open Contracting Partnership évalue régulièrement l'impact de ces ouvertures sur la corruption dans les marchés publics. Leurs données montrent que la publication proactive des contrats réduit les anomalies de prix de 10 à 25 % dans les pays qui l'adoptent systématiquement.
Valeur économique de l'Open Data
La Commission européenne estimait en 2020 que le marché des données ouvertes en Europe représentait 184 milliards d'euros, avec une projection à 199,51 milliards d'euros en 2025. Ces chiffres incluent la valeur directe (services construits sur les données) et indirecte (gains d'efficacité administrative).
En France, le rapport Trojette de 2013 avait posé la question de la gratuité des données publiques. La conclusion était nette : les revenus issus de la redevance sur les données publiques (estimés à 70 millions d'euros par an) restaient bien inférieurs aux bénéfices économiques que générerait leur ouverture gratuite.
Interopérabilité et souveraineté des données
Un défi technique et politique récurrent reste l'interopérabilité. Des référentiels communs comme SIREN/SIRET pour les entreprises françaises, ou les identifiants LEI au niveau mondial, permettent de croiser des sources hétérogènes. Sans ces standards partagés, chaque jeu de données reste une île.
La souveraineté des données est par ailleurs un enjeu géopolitique croissant. Publier des données nationales sur des plateformes hébergées hors de l'Union européenne soulève des questions légitimes sur la maîtrise de l'infrastructure numérique. Le GAIA-X, initiative franco-allemande de cloud souverain, tente d'y répondre en proposant une alternative européenne aux géants américains.
Open Data et intelligence artificielle : une interdépendance croissante
Les modèles d'intelligence artificielle sont voraces en données d'entraînement. L'open data leur fournit des sources structurées, documentées et (théoriquement) fiables. Des jeux de données comme Common Crawl, Wikipedia ou les données Copernicus d'observation de la Terre sont devenus des composants des grands modèles de langage et de vision.
Cette interdépendance crée de nouvelles tensions. Quand des entreprises privées entraînent des modèles propriétaires sur des données produites collectivement, la question du retour de valeur vers la communauté se pose. Le débat autour du statut des données d'entraînement dans le cadre de l'AI Act européen illustre une complexité réglementaire encore loin d'être résolue.
Les défis actuels de la qualité et de la gouvernance
La simple publication de données ne suffit pas à apporter de la valeur. La qualité des métadonnées, la fraîcheur des mises à jour, la documentation des modalités de collecte : ces éléments conditionnent l'utilisabilité réelle d'un jeu de données. Des études récentes montrent que plus de 40 % des jeux de données publiés sur les portails européens présentent des problèmes de qualité significatifs (doublons, formats hétérogènes, documentation insuffisante).
La gouvernance des données ouvertes exige donc une professionnalisation croissante. Des rôles comme le Chief Data Officer (CDO) ou le data steward émergent dans les administrations pour assurer la cohérence et la qualité des publications. L'open data mature ne se réduit plus à mettre en ligne un fichier CSV : c'est une démarche structurée, documentée et maintenue dans la durée.