Quand les chiffres publics deviennent des histoires
Le journalisme de données n'est pas une tendance récente. Dès les années 1960, des journalistes américains exploitaient des fichiers gouvernementaux pour montrer des inégalités électorales. Ce qui a changé, c'est l'ampleur du matériau disponible. Aujourd'hui, data.gouv.fr recense plus de 60 000 jeux de données accessibles gratuitement. L'open data a transformé une pratique confidentielle en méthode journalistique ordinaire.
Le journalisme de données repose sur un principe simple : les documents publics racontent des vérités que les communiqués de presse taisent. Un budget municipal, un fichier de marchés publics, un registre de subventions, chacun de ces datasets contient potentiellement le sujet d'une enquête. Pas de réponse sans question préalable.
Les sources ouvertes pour les journalistes
Les portails nationaux et européens
La première étape de toute enquête data consiste à cartographier les sources disponibles. En France, data.gouv.fr centralise les publications des administrations centrales et locales. Le portail européen data.europa.eu agrège les données de 36 pays membres, utile pour les comparaisons transfrontalières.
Parmi les gisements les plus exploités par les rédactions : les bases SIRENE (entreprises), les fichiers DECP (données essentielles de la commande publique) et le répertoire national des élus. Ces trois sources ont alimenté des centaines d'enquêtes sur les conflits d'intérêts, les favoritismes locaux et les flux financiers entre collectivités et prestataires privés.
Les données locales, souvent négligées
Les mairies, intercommunalités et conseils départementaux publient des données que peu de journalistes locaux exploitent. Les comptes administratifs annuels, disponibles sur les portails régionaux ou via la DGFIP, détaillent chaque poste de dépense. Le projet de loi de finances rectificatif de chaque commune devient ainsi une matière première pour documenter les priorités politiques réelles, au-delà des discours.
Les données d'urbanisme (fichiers PLU, permis de construire via la base SITADEL) permettent de croiser l'identité des bénéficiaires de permis avec des fichiers d'élus ou de donateurs politiques. C'est exactement ce type de croisement qui a produit plusieurs enquêtes remarquées ces dernières années dans la presse régionale française.
La méthode : de la donnée brute au récit
Formuler une hypothèse avant d'ouvrir le tableur
Une erreur courante consiste à télécharger un dataset sans question précise, espérant qu'une anomalie émergera seule. Cette approche produit rarement du journalisme : elle produit des visualisations. Le point de départ doit être une suspicion, un témoignage, une incohérence dans un discours officiel.
L'hypothèse structure l'analyse. Si un élu affirme avoir réduit les dépenses de communication, la question devient : les données budgétaires confirment-elles cette affirmation sur les cinq dernières années ? Ce cadrage évite de se perdre dans 40 colonnes sans direction éditoriale claire.
Nettoyer, croiser, vérifier
Les données publiques arrivent rarement dans un état exploitable directement. Les fichiers CSV de marchés publics contiennent des noms d'entreprises écrits de dix façons différentes pour un seul prestataire. Les montants manquent, les dates sont incohérentes, les codes INSEE sont erronés. Cette phase de nettoyage représente souvent 60 à 70 % du temps total d'une enquête data.
Des outils comme OpenRefine permettent de standardiser les données en quelques heures. Python (avec pandas) ou R sont utilisés dans les grandes rédactions pour des traitements plus complexes. Le journaliste britannique Paul Bradshaw estime qu'un journaliste de données doit maîtriser au minimum deux outils : un tableur avancé et une solution de nettoyage automatisé.
Le croisement de fichiers, cœur de l'enquête
La véritable valeur ajoutée du journalisme de données réside dans les croisements. Relier la base des élus locaux à celle des dirigeants d'entreprises attributaires de marchés publics exige de normaliser des formats hétérogènes, mais le résultat peut révéler des liens invisibles à l'œil nu.
Le consortium ICIJ a utilisé cette méthode à grande échelle pour les Panama Papers et les Pandora Papers, croisant des millions d'entrées de registres offshore avec des bases de données publiques d'élus et de dirigeants d'entreprises. À plus petite échelle, la même logique s'applique à une enquête sur une agglo de 200 000 habitants.
Raconter les données : de l'analyse au récit
Ne pas confondre chiffre et preuve
Une corrélation statistique n'est pas une causalité. Deux variables qui évoluent ensemble dans un fichier ne prouvent pas un lien de cause à effet. Cette distinction est décisive dans le journalisme de données : des chiffres mal interprétés peuvent produire des accusations infondées ou des représentations distordues de la réalité.
La rigueur impose de soumettre les analyses à des experts du domaine (économistes, statisticiens, juristes) avant publication. Le Guardian Data Blog applique cette règle sans exception : toute interprétation non évidente est validée par un tiers avant d'être publiée.
Humaniser les données avec des cas particuliers
Un graphique montrant que 34 % des contrats d'une collectivité ont été attribués à trois entreprises liées à des proches du maire est frappant. Mais c'est l'histoire d'un artisan local exclu d'un appel d'offres qui rend ce chiffre tangible pour le lecteur. Les données fournissent la structure ; les témoignages individuels en font un récit.
Cette complémentarité est au cœur du datajournalisme qui fonctionne. Des rédactions comme Mediapart, Le Monde Afrique ou Disclose combinent analyse quantitative et reportage de terrain. Le chiffre pose le cadre, le témoignage l'habite.
Choisir le bon format de présentation
Tous les sujets ne nécessitent pas une carte interactive ou un graphique dynamique. Parfois, un tableau comparatif simple, voire un récit purement textuel, s'avère plus percutant qu'une visualisation complexe. Le critère n'est pas l'effet visuel, c'est la clarté du message.
Les outils de visualisation accessibles aux rédactions sans développeur intégré sont nombreux : Datawrapper produit des graphiques publiables en quinze minutes, Flourish permet des visualisations narratives, QGIS gère la cartographie thématique. Le choix de l'outil doit suivre la question, jamais la précéder.
Les limites légales et éthiques de l'open data en journalisme
Ce que la loi autorise, et ce qu'elle ne dit pas
En France, la loi pour une République numérique de 2016 a élargi considérablement les obligations de publication des administrations. Mais réutiliser des données personnelles, même publiques, reste encadré par le RGPD. Croiser le fichier des allocataires RSA avec celui des propriétaires fonciers, même à des fins journalistiques, entre dans une zone grise que la CNIL a commencé à baliser.
La liberté de la presse offre une protection, mais pas un blanc-seing. Le journaliste doit documenter l'intérêt public de son traitement et limiter l'exposition des données personnelles non pertinentes pour son enquête. Cette contrainte est souvent perçue comme un obstacle ; elle fonctionne en réalité comme une discipline éditoriale utile.
Transparence de la méthode
Le standard international du datajournalisme exige la publication des données sources et des méthodes d'analyse dès lors que l'enquête est publiée. Cette transparence permet à d'autres journalistes, chercheurs ou citoyens de reproduire, vérifier ou approfondir le travail. FiveThirtyEight et The Pudding publient leurs scripts d'analyse sur GitHub.
Cette pratique, encore minoritaire en France, commence à s'imposer dans les grandes rédactions. Elle garantit la crédibilité du travail et contribue à l'écosystème open data : les journalistes deviennent producteurs de méthode autant que consommateurs de données.
Construire une culture data dans une rédaction
Former les journalistes aux données ne signifie pas en faire des développeurs. Il s'agit de leur donner les réflexes pour identifier un dataset pertinent, évaluer sa fiabilité et formuler les bonnes questions à poser à un statisticien ou un data analyst. Cette progression reste inégale selon les rédactions.
Les formations de l'École de journalisme de Sciences Po, du Centre de formation des journalistes ou de l'EJC intègrent désormais des modules data. Des ressources en ligne comme le Data Journalism Handbook (traduit en français) offrent un socle méthodologique solide pour les autodidactes.
L'enjeu n'est pas technique. Il est éditorial : dans un contexte où les administrations produisent des données à un rythme exponentiel, le journaliste qui ne sait pas lire un tableur laisse à d'autres, lobbyistes, communicants, algorithmes de plateformes, le soin d'interpréter la réalité à sa place.