Cartographie des données ouvertes : ce qu'il faut savoir avant de commencer
Les données ouvertes ne forment pas un ensemble homogène. Derrière l'expression « open data » coexistent des formats disparates, des licences variées et des niveaux d'accessibilité très inégaux. Avant d'explorer les sources disponibles, mieux vaut comprendre la distinction entre portails institutionnels, catalogues agrégateurs et APIs publiques, trois catégories qui répondent à des usages bien différents.
Un portail national publie des jeux de données bruts, souvent en CSV ou JSON, gérés par une administration centrale. Un catalogue comme data.world ou le portail européen agrège ces sources en un point d'accès unique. Une API publique permet une interrogation dynamique en temps réel, utile pour des applications ou des analyses automatisées.
Connaître cette distinction évite de chercher une donnée mise à jour quotidiennement dans un fichier statique produit tous les cinq ans.
Les portails nationaux
data.gouv.fr : la référence française
Géré par Etalab, l'agence officielle des données ouvertes de l'État français, data.gouv.fr recense plus de 45 000 jeux de données. On y trouve des données démographiques (INSEE), des statistiques sanitaires (Santé Publique France), des données de transport (SNCF, RATP) et des informations cadastrales.
La Licence Ouverte 2.0 (Etalab) couvre la majorité des jeux et autorise la réutilisation commerciale sans redevance. Le moteur de recherche propose des filtres par organisation productrice, format de fichier et fréquence de mise à jour. Ce dernier critère est souvent négligé, alors qu'il est décisif pour les projets qui ont besoin de données récentes.
data.gov : le portail américain et ses 300 000 ressources
Le portail fédéral américain data.gov agrège les publications de l'ensemble des agences fédérales : EPA, NASA, Census Bureau, NOAA, entre autres. Plus de 300 000 jeux de données y sont référencés, ce qui en fait l'un des catalogues les plus volumineux au monde.
La granularité thématique est frappante : éducation, agriculture, énergie, finance, santé publique. Les données climatiques de la NOAA remontent parfois à plus d'un siècle et sont exploitables directement via API. À noter : des jeux périmés restent présents dans le catalogue sans signalement clair.
Autres portails nationaux notables
| Pays | Portail | Particularité | |------|---------|---------------| | Royaume-Uni | data.gov.uk | Fort en données géospatiales (Ordnance Survey) | | Canada | open.canada.ca | Données bilingues FR/EN, riche en environnement | | Allemagne | govdata.de | Couverture fédérale et régionale (Länder) | | Australie | data.gov.au | Données agricoles et climatiques de référence |
Les catalogues agrégateurs : une vue consolidée
Le portail européen des données
data.europa.eu regroupe les publications des institutions européennes (Eurostat, BCE, Agence Européenne de l'Environnement) et celles des États membres via des points de moissonnage automatisés. Le catalogue dépasse 1,5 million de jeux de données.
L'interface propose des filtres avancés par pays, par organisation et par format : RDF, CSV, GeoJSON, Shapefile. La section Eurostat mérite une attention particulière pour les comparaisons statistiques entre pays membres : données d'emploi, PIB régional, taux de pauvreté, avec des séries longues fiables.
CKAN : la technologie derrière la majorité des portails
CKAN (Comprehensive Knowledge Archive Network) est le logiciel open source qui propulse data.gouv.fr, data.gov et des dizaines d'autres portails nationaux. Conséquence pratique : une API standardisée existe sur presque tous ces portails. L'endpoint api/3/action/package_search fonctionne de manière identique d'un portail à l'autre.
Ce standard simplifie l'agrégation programmatique de données multi-sources. Un script Python utilisant requests peut interroger simultanément plusieurs portails CKAN avec le même format de requête.
Hugging Face Datasets : l'émergence de l'IA open data
Moins traditionnel mais désormais très utilisé pour les projets liés à l'intelligence artificielle, Hugging Face Datasets héberge plusieurs dizaines de milliers de jeux de données structurés, textuels et multimodaux. Beaucoup sont issus de recherches académiques publiées en accès libre.
La bibliothèque Python datasets charge directement un jeu de données en deux lignes de code, sans gestion manuelle des téléchargements. Pour les projets de NLP, de vision par ordinateur ou d'analyse de séries temporelles, c'est une source à surveiller régulièrement.
Les APIs publiques : accès en temps réel
APIs météo et environnement
Open-Meteo est une API météorologique entièrement gratuite et sans clé d'authentification pour un usage non commercial. Elle agrège les modèles de plusieurs centres météorologiques (ECMWF, Météo-France, NOAA) et fournit des prévisions à 16 jours ainsi que des données historiques remontant à 1940.
OpenAQ compile les mesures de qualité de l'air de plus de 100 pays en temps quasi réel. L'API REST est documentée, gratuite dans sa version de base, et couvre des polluants comme PM2.5, NO₂ et O₃. Utile pour des études d'impact environnemental ou des tableaux de bord citoyens.
APIs géographiques et cartographiques
Overpass API permet d'interroger la base OpenStreetMap en langage Overpass QL. On peut extraire tous les hôpitaux d'une région, les bornes de recharge électrique d'un pays entier ou le réseau cyclable d'une ville en une seule requête structurée.
Nominatim, également issu de l'écosystème OpenStreetMap, offre un service de géocodage et géocodage inverse gratuit. Pour des volumes importants, héberger sa propre instance reste la solution recommandée pour éviter les limitations de débit.
APIs économiques et financières
La Banque Mondiale expose l'intégralité de ses indicateurs de développement via une API REST documentée, couvrant 217 économies et plus de 1 600 indicateurs : taux d'alphabétisation, accès à l'eau potable, indice de corruption. Les données remontent généralement aux années 1960 pour les pays bien documentés.
FRED (Federal Reserve Economic Data) de la Réserve Fédérale de Saint-Louis donne accès à plus de 800 000 séries économiques américaines et internationales. Taux directeurs, inflation, chômage, masse monétaire : c'est la référence pour l'analyse macroéconomique quantitative.
Données ouvertes sectorielles : sources spécialisées
Santé et épidémiologie
L'OMS maintient un observatoire de données de santé mondial accessible en téléchargement direct ou via API. Pour les données françaises, Santé Publique France publie ses indicateurs sur data.gouv.fr avec une fréquence hebdomadaire pour certaines maladies à déclaration obligatoire.
Our World in Data agrège et harmonise des données mondiales sur la santé, l'éducation, l'énergie et l'environnement. Chaque graphique du site est téléchargeable en CSV avec les sources originales citées, une pratique rare qui facilite la vérification et la réutilisation académique.
Transport et mobilité
Le standard GTFS (General Transit Feed Specification) structure les données de transport en commun de milliers de villes dans le monde. Transitland centralise ces flux GTFS et les rend accessibles via API, couvrant plus de 2 500 réseaux de transport sur cinq continents.
En France, le Point d'Accès National aux données de transport (transport.data.gouv.fr) publie les horaires, tracés et perturbations de l'ensemble des réseaux de transport public nationaux aux formats GTFS, NeTEx et SIRI.
Critères de sélection d'une source de données
Toutes les sources listées ci-dessus ne se valent pas selon le contexte d'utilisation. Quatre critères structurent une évaluation sérieuse.
La fraîcheur d'abord : quelle est la fréquence de mise à jour ? Une donnée annuelle ne convient pas à un monitoring en temps réel. La licence ensuite : la réutilisation commerciale est-elle autorisée ? Creative Commons CC-BY et Licence Ouverte Etalab le permettent ; d'autres imposent des restrictions. La complétude mérite aussi d'être vérifiée, car certains jeux présentent des lacunes géographiques ou temporelles importantes, souvent non documentées. Enfin, le format : standardisé (CSV, JSON, GeoJSON) ou propriétaire (XLS verrouillé, PDF) ?
Un jeu de données techniquement « ouvert » mais publié en PDF non structuré impose un travail d'extraction qui peut annuler tout gain de temps. La qualité de la documentation technique, présence d'un dictionnaire de variables, d'un changelog, d'un contact producteur, révèle souvent plus que le volume brut de données proposé.
Agrégation et workflows : aller plus loin
Pour les équipes qui travaillent régulièrement avec des données ouvertes, construire un pipeline d'ingestion automatisé devient rapidement nécessaire. Des outils comme Apache Airflow pour l'orchestration, DuckDB pour l'analyse SQL légère sur fichiers CSV volumineux, ou Frictionless Data pour la validation de schémas permettent de passer de la simple consultation à une infrastructure data reproductible.
Combiner data.gouv.fr pour les données institutionnelles françaises, FRED pour le contexte macroéconomique international et Overpass pour la dimension géographique couvre déjà la majorité des besoins analytiques courants, sans débourser le moindre euro.