Comprendre les projets open data : au-delà de la simple publication de fichiers
L'open data ne se résume pas à mettre des fichiers CSV en ligne. Un projet abouti combine trois choses : des données accessibles et documentées, une communauté capable de les interpréter, et des outils pour les transformer en décisions concrètes.
En France, plus de 65 000 jeux de données sont disponibles sur data.gouv.fr. Moins de 10 % font l'objet de réutilisations documentées. Cet écart entre publication et utilisation révèle un problème structurel que des plateformes collaboratives comme OpenDataGarage cherchent à combler.
Ce guide recense les types de projets les plus efficaces, les méthodes éprouvées, et les ressources pour passer de l'idée à la réalisation.
Les grandes familles de projets open data
Projets de visualisation et de storytelling de données
La visualisation transforme des tableaux illisibles en récits compréhensibles. Des équipes de journalisme de données comme celle du New York Times ou, en France, Le Monde Infographie, ont montré qu'un graphique bien conçu peut peser sur le débat public plus qu'un rapport de 200 pages.
Un projet de visualisation type implique le nettoyage des données brutes, le choix d'une représentation adaptée (carte choroplèthe, diagramme de Sankey, timeline), puis une narration qui guide le lecteur. Des outils comme Observable, Flourish ou D3.js permettent aujourd'hui à des non-développeurs de produire des visualisations interactives de qualité professionnelle.
Exemple concret : la carte interactive des déserts médicaux en France, construite à partir des données DREES sur la densité des médecins généralistes, a été reprise par plus de 40 médias locaux et a alimenté plusieurs débats parlementaires.
Projets d'analyse et de recherche citoyenne
L'analyse citoyenne consiste à utiliser des données publiques pour répondre à des questions que les institutions ne posent pas, ou pour vérifier des affirmations politiques. C'est le terrain du fact-checking quantitatif.
Des collectifs comme OpenStreetMap France, Regards Citoyens ou DataForGood produisent régulièrement des analyses qui éclairent des angles morts : efficacité des politiques de rénovation énergétique, répartition géographique des subventions culturelles, délais réels de traitement des demandes d'asile.
Ces projets exigent une rigueur méthodologique explicite. Sourcer chaque jeu de données, documenter les traitements appliqués, signaler les limites d'interprétation. Sans cette transparence, l'analyse citoyenne perd sa crédibilité.
Applications et outils à impact direct
Certains projets open data débouchent sur des applications utilisées quotidiennement. Navitia, l'API ouverte de transport en commun, alimente des dizaines d'applications de mobilité à partir de données GTFS publiées par les collectivités. Qui Décide Ma Ville agrège les données de démocratie participative de plusieurs centaines de communes.
Ces réussites ont un point commun : elles résolvent un problème précis pour un utilisateur identifié. La tentation de construire une plateforme généraliste « pour tous les cas d'usage » reste l'une des principales causes d'échec des projets open data ambitieux.
Tutoriels : construire un projet open data de A à Z
Partir d'une question, pas d'un dataset
La plupart des projets commencent mal parce qu'ils partent d'un jeu de données disponible plutôt que d'une question à résoudre. La démarche inverse est bien plus fertile.
Formulez une question précise et vérifiable : « Les communes qui ont investi dans les pistes cyclables entre 2015 et 2020 ont-elles connu une baisse des accidents de vélo ? » Cette question appelle des données spécifiques (ONISR pour les accidents, data.gouv.fr pour les investissements municipaux), un périmètre temporel clair, et un indicateur de succès mesurable.
Une question bien posée économise des semaines de travail inutile. Elle facilite aussi la communication des résultats auprès d'un public non technique.
Sourcer et évaluer la qualité des données
Tous les jeux de données open data ne se valent pas. Quatre critères permettent d'évaluer rapidement leur fiabilité : la fraîcheur (date de dernière mise à jour), la granularité (niveau de détail disponible), la complétude (pourcentage de valeurs manquantes), et la documentation (présence d'un dictionnaire de variables).
Sur data.gouv.fr, le score de qualité affiché intègre partiellement ces critères, mais une vérification manuelle reste nécessaire. Un jeu de données noté 5 étoiles peut présenter des incohérences majeures dès qu'on le croise avec d'autres sources.
Les principales sources françaises à connaître : data.gouv.fr (généraliste), INSEE (statistiques socio-économiques), BRGM (données environnementales), opendata.paris.fr et ses équivalents dans les grandes métropoles.
Nettoyer et structurer avec des outils accessibles
Le nettoyage représente en moyenne 60 à 80 % du temps d'un projet de données. Cette réalité, souvent sous-estimée par les débutants, explique pourquoi tant de projets s'arrêtent au stade de l'exploration.
Pour des volumes modestes (moins de 100 000 lignes), OpenRefine reste la référence : gratuit, sans code, il détecte automatiquement les doublons, les incohérences d'encodage et les valeurs aberrantes. Pour des volumes plus importants, Python avec les librairies Pandas et Missingno donne un contrôle total sur les transformations.
Un journal de bord des transformations appliquées n'est pas optionnel. Il permet à d'autres contributeurs de reproduire le travail et de détecter d'éventuelles erreurs méthodologiques.
Publier, documenter, partager
Un projet open data non documenté est un projet mort. La documentation comprend au minimum : la question initiale, les sources utilisées avec leurs URLs et dates d'accès, les transformations appliquées, les limites connues de l'analyse, et la licence de réutilisation choisie.
GitHub et GitLab sont devenus les espaces de publication standard pour les projets data : ils gèrent le versioning, facilitent les contributions externes, et offrent une traçabilité complète des modifications. Associez votre dépôt à une page lisible par des non-développeurs, via un README soigné ou un notebook Observable publié.
Constructions collaboratives : l'open data comme sport d'équipe
Le modèle du hackathon : accélérateur ou pétard mouillé ?
Les hackathons data mobilisent des dizaines de développeurs, designers et experts métier pendant 24 à 72 heures. Ils produisent de l'enthousiasme, parfois des prototypes convaincants, et rarement des projets qui survivent au lundi suivant.
Le taux de survie à 6 mois des projets issus de hackathons est estimé à moins de 5 % selon plusieurs études menées par des acteurs de l'écosystème civic tech européen. Cause principale : l'absence de porteur clairement identifié après l'événement, et un manque de connexion avec les utilisateurs finaux réels.
Les hackathons restent utiles comme espace de formation, de mise en réseau et d'exploration rapide. Ils deviennent contre-productifs quand les organisateurs les présentent comme des solutions à des problèmes systémiques.
Les communautés de pratique : le modèle qui dure
Les projets open data les plus pérennes sont portés par des communautés de pratique structurées. OpenStreetMap, avec plus de 8 millions de contributeurs mondiaux, en est l'exemple le plus documenté : une gouvernance claire, des outils de contribution accessibles, et une culture de la qualité data entretenue par des validateurs expérimentés.
À une échelle plus modeste, des groupes locaux de 10 à 30 personnes peuvent maintenir des projets data pendant plusieurs années si trois conditions sont réunies. Une réunion régulière, mensuelle au minimum. Un projet concret qui progresse, visible par tous. Et une personne qui assure la coordination sans monopoliser les décisions.
OpenDataGarage s'inscrit dans cette logique : offrir un espace où les projets se construisent dans la durée, pas seulement lors d'événements ponctuels.
Collaborer avec les institutions : pièges et opportunités
Les collectivités territoriales et les administrations d'État sont à la fois les principales productrices de données publiques et des partenaires potentiels pour les projets open data. Mais cette collaboration est délicate à construire.
Les points de friction classiques : les cycles de décision longs, incompatibles avec les rythmes des communautés data ; les contraintes juridiques sur certains jeux de données (RGPD, secret des affaires) ; la méfiance réciproque entre techniciens et élus. Les bénéfices d'une collaboration réussie sont pourtant réels : accès à des données non publiées, validation institutionnelle des résultats, et potentiel de passage à l'échelle.
La stratégie la plus efficace : identifier un agent public convaincu par l'open data au sein de l'institution, construire une relation de confiance sur un premier projet à faible risque, et montrer la valeur produite avant de demander un accès élargi aux données.
Inspirations : projets open data qui ont changé quelque chose
Niveau local : l'observatoire des loyers de Paris
Lancé en 2015, l'Observatoire des Loyers de l'Agglomération Parisienne (OLAP) a rendu publiques des données détaillées sur les loyers du marché privé parisien. Ces données ont directement alimenté la conception de l'encadrement des loyers, entré en vigueur à Paris en 2019.
Ce projet illustre le cas idéal : des données de qualité, une question politique claire, et des décideurs prêts à intégrer les résultats dans leur processus législatif.
Niveau national : la transparence des essais cliniques
La base de données française des essais cliniques (ANSM), rendue accessible en open data, a permis à des chercheurs indépendants de documenter le phénomène de publication sélective : les essais aux résultats positifs sont publiés dans des revues scientifiques deux fois plus souvent que les essais neutres ou négatifs.
Cette analyse, impossible sans l'ouverture des données administratives, a conduit à des recommandations de transparence adoptées par plusieurs revues médicales européennes.
Niveau international : OpenCorporates
OpenCorporates agrège les données d'enregistrement de sociétés de plus de 140 juridictions dans le monde. Avec plus de 200 millions d'entités référencées, cette base de données a permis d'identifier des structures de dissimulation d'actifs utilisées dans des affaires d'évasion fiscale de grande ampleur, notamment dans le cadre des Panama Papers.
Choisir son premier projet : grille d'évaluation rapide
Avant de lancer un projet open data, cinq questions permettent d'évaluer sa viabilité :
- La question est-elle vérifiable ? Une hypothèse testable avec des données existantes vaut mieux qu'une intuition générale.
- Les données existent-elles ? Vérifiez sur au moins trois sources différentes avant de conclure à leur absence.
- Qui utilisera les résultats ? Nommer un utilisateur cible précis (journaliste, élu local, association) change radicalement la conception du projet.
- Quel est le volume de travail réaliste ? Un projet bien délimité mené à terme vaut infiniment mieux qu'un projet ambitieux abandonné à 60 %.
- Qui contribue et selon quelle organisation ? Un porteur identifié, même sur un projet collectif, multiplie par trois les chances d'achèvement.
Ces questions ne filtrent pas les mauvaises idées : elles transforment les bonnes idées en projets réalisables.