CSV, JSON, RDF, GeoJSON : les formats Open Data expliqués

Pourquoi les formats de données ouvertes déterminent tout

Un jeu de données publié en PDF vaut peu, même si son contenu est excellent. Le format conditionne directement la réutilisabilité : un fichier exploitable par une machine sans intervention humaine a une valeur économique et analytique sans commune mesure avec un document conçu pour l'impression.

L'initiative Open Data repose sur un principe simple : publier ne suffit pas, encore faut-il publier correctement. Tim Berners-Lee a formalisé cette logique dès 2010 avec son système à cinq étoiles, où chaque niveau correspond à un degré de maturité technique croissant. Les formats standardisés sont les briques de cet édifice.

CSV : le format universel

Structure et avantages

Le CSV (Comma-Separated Values) reste le format le plus répandu dans les catalogues open data mondiaux. Sa structure est d'une simplicité radicale : chaque ligne représente un enregistrement, chaque colonne un champ, séparés par une virgule ou un point-virgule selon les conventions locales.

Ce format atteint deux étoiles dans la classification Berners-Lee, ce qui signifie des données structurées lisibles par machine, sans liens vers d'autres sources. Il s'ouvre nativement dans Excel et LibreOffice, s'importe directement dans Python avec pandas, dans R, ou dans pratiquement tout outil d'analyse de données.

Limites à connaître

Le CSV souffre d'un problème récurrent : l'absence de typage natif. Rien n'indique formellement si une colonne contient une date, un entier ou une chaîne de caractères. Les problèmes d'encodage (UTF-8 vs Latin-1) causent encore régulièrement des corruptions sur les caractères accentués.

Pour les données tabulaires simples, populations municipales, statistiques budgétaires, relevés météorologiques, le CSV reste pourtant le choix le plus accessible.

JSON : la lingua franca des APIs modernes

Un format né du web

Le JSON (JavaScript Object Notation) s'est imposé comme le standard des échanges de données en temps réel. Sa syntaxe à base de paires clé-valeur, de tableaux et d'objets imbriqués permet de représenter des structures hiérarchiques complexes qu'un CSV ne peut pas capturer.

Un fichier JSON reste lisible par un humain avec un minimum d'effort, tout en étant parsé nativement par JavaScript et pris en charge par tous les langages de programmation modernes. Les APIs gouvernementales, data.gouv.fr et api.data.gouv.fr notamment, renvoient leurs réponses en JSON.

JSON-LD : vers la donnée liée

Une extension utile pour l'open data est le JSON-LD (JSON for Linking Data). En ajoutant un contexte sémantique via la clé @context, il ancre chaque propriété dans une ontologie standardisée comme Schema.org.

Il contextualise sémantiquement les données sans rompre la compatibilité avec l'écosystème JSON existant. C'est un format pivot entre le web classique et le web des données.

RDF et ses sérialisations : le sommet du web sémantique

Le modèle en triplets

Le RDF (Resource Description Framework) marque une rupture conceptuelle par rapport aux formats tabulaires ou hiérarchiques. Chaque information s'exprime sous forme de triplets : sujet, prédicat, objet. Par exemple : .

Ce modèle tisse des liens entre datasets distincts, permet d'interroger des graphes de connaissances via SPARQL, et atteint les cinq étoiles dans la classification Berners-Lee. Wikidata, DBpedia et le portail européen data.europa.eu utilisent RDF activement.

Turtle, N-Triples, RDF/XML

RDF se décline en plusieurs syntaxes concrètes. Turtle offre la meilleure lisibilité humaine avec une notation compacte. N-Triples privilégie la simplicité pour le traitement en flux ligne par ligne. RDF/XML garantit l'interopérabilité avec les outils XML existants.

Le choix entre ces sérialisations dépend du contexte : traitement en streaming, édition manuelle ou intégration dans une chaîne XML. Dans tous les cas, le modèle sous-jacent reste identique.

OWL et les ontologies

Au-dessus de RDF se trouve OWL (Web Ontology Language), qui permet de définir des classes, des propriétés et des règles d'inférence. Des raisonneurs automatiques peuvent alors déduire des informations non explicitement saisies à partir de données gouvernementales modélisées en OWL.

GeoJSON : la référence pour les données spatiales

Géographie et interopérabilité

Le GeoJSON étend le JSON avec des types géométriques standardisés : Point, LineString, Polygon, MultiPolygon. Défini par la RFC 7946, il a supplanté des formats plus anciens comme le Shapefile pour les données géographiques ouvertes sur le web.

Chaque entité géographique (Feature) combine une géométrie et des propriétés arbitraires, ce qui permet d'associer des attributs thématiques à des contours de communes, des tracés de réseaux de transport ou des points d'intérêt. Les coordonnées s'expriment en WGS84 par défaut.

Intégration native dans les outils modernes

Leaflet, Mapbox GL, OpenLayers et QGIS lisent le GeoJSON nativement. GitHub affiche automatiquement les fichiers GeoJSON sur une carte interactive. Cette adoption quasi-universelle dans l'écosystème de cartographie web en fait le format à privilégier pour toute publication de données géolocalisées.

Pour les jeux de données très volumineux, millions de polygones complexes, des alternatives comme GeoParquet ou FlatGeobuf offrent de meilleures performances tout en conservant une interopérabilité croissante.

Autres formats structurants de l'écosystème open data

XML : puissant mais verbeux

Le XML (eXtensible Markup Language) reste présent dans de nombreux systèmes patrimoniaux, notamment dans les échanges administratifs (OpenDocument, TEI pour les textes culturels). Sa validation par schéma (XSD) garantit une intégrité structurelle forte.

Son principal défaut est la verbosité : un fichier XML peut peser trois à cinq fois plus qu'un CSV ou JSON équivalent. Il reste pertinent pour les données documentaires complexes ou les échanges B2G (Business to Government) réglementés.

Parquet et formats colonaires

Apache Parquet représente une évolution notable pour les gros volumes. Ce format colonaire compresse efficacement les données répétitives et permet d'interroger uniquement les colonnes nécessaires, sans lire l'intégralité du fichier.

Des plateformes comme data.gouv.fr expérimentent Parquet pour les jeux de données dépassant plusieurs gigaoctets. Un fichier de recensement de 2 Go en CSV peut descendre à 400 Mo en Parquet, avec des temps de requête dix à cinquante fois plus rapides selon les cas d'usage.

DCAT : cataloguer les catalogues

Le DCAT (Data Catalog Vocabulary) est un vocabulaire RDF standardisé par le W3C pour décrire des catalogues de données. Il ne définit pas un format de données mais une structure de métadonnées.

DCAT-AP, son profil européen, est obligatoire pour les portails officiels des États membres de l'UE souhaitant alimenter data.europa.eu. Il uniformise les métadonnées (titre, description, fréquence de mise à jour, licence) pour permettre la moisson automatique entre catalogues.

Choisir le bon format : une grille de décision

En fonction de la nature des données

| Type de données | Format recommandé | |---|---| | Tableau simple | CSV | | Données géographiques | GeoJSON | | API temps réel | JSON / JSON-LD | | Données liées | RDF (Turtle ou JSON-LD) | | Gros volumes | Parquet / CSV.gz | | Données documentaires | XML / TEI |

Les critères déterminants

Trois questions orientent le choix : qui sont les utilisateurs finaux ? Quels outils vont consommer ces données ? Quelle volumétrie est anticipée ?

Un jeu de données destiné à des journalistes ou des citoyens gagne à être publié en CSV ou JSON. Un dataset ciblant des chercheurs en sciences sociales peut justifier RDF. Une infrastructure de données massives pour des ingénieurs data orientera vers Parquet.

La licence ouverte (ODbL, Licence Ouverte 2.0, CC BY) complète le format : sans l'une, l'autre ne suffit pas pour constituer une donnée vraiment réutilisable.

Ce qui se profile dans les standards

Le mouvement Linked Data continue de progresser, notamment avec l'essor de SPARQL 1.2 et des triplestore cloud-natifs. Les formats de tuiles vectorielles comme PMTiles changent la distribution de données cartographiques sans serveur.

L'interopérabilité reste le défi central. Des initiatives comme Frictionless Data (descripteurs de paquetage de données) ou les Data Spaces européens cherchent à standardiser non seulement les formats, mais aussi les protocoles d'échange et les contrats de données.

Les formats ne sont jamais neutres : ils cristallisent des choix architecturaux, des compromis entre performance et accessibilité, entre ouverture immédiate et richesse sémantique. Maîtriser cette grammaire technique est la condition préalable à toute stratégie open data qui fonctionne.

Standards et Formats Open Data : CSV, JSON, RDF, GeoJSON et Plus

Pourquoi les formats de données ouvertes déterminent tout

CSV : le format universel

Structure et avantages

Limites à connaître

JSON : la lingua franca des APIs modernes

Un format né du web

JSON-LD : vers la donnée liée

RDF et ses sérialisations : le sommet du web sémantique

Le modèle en triplets

Turtle, N-Triples, RDF/XML

OWL et les ontologies

GeoJSON : la référence pour les données spatiales

Géographie et interopérabilité

Intégration native dans les outils modernes

Autres formats structurants de l'écosystème open data

XML : puissant mais verbeux

Parquet et formats colonaires

DCAT : cataloguer les catalogues

Choisir le bon format : une grille de décision

En fonction de la nature des données

Les critères déterminants

Ce qui se profile dans les standards

Pages

Informations

Standards et Formats Open Data : CSV, JSON, RDF, GeoJSON et Plus

Pourquoi les formats de données ouvertes déterminent tout

CSV : le format universel

Structure et avantages

Limites à connaître

JSON : la lingua franca des APIs modernes

Un format né du web

JSON-LD : vers la donnée liée

RDF et ses sérialisations : le sommet du web sémantique

Le modèle en triplets

Turtle, N-Triples, RDF/XML

OWL et les ontologies

GeoJSON : la référence pour les données spatiales

Géographie et interopérabilité

Intégration native dans les outils modernes

Autres formats structurants de l'écosystème open data

XML : puissant mais verbeux

Parquet et formats colonaires

DCAT : cataloguer les catalogues

Choisir le bon format : une grille de décision

En fonction de la nature des données

Les critères déterminants

Ce qui se profile dans les standards

Articles connexes

Qu'est-ce que l'Open Data ? Définition Claire et Complète

Licences Open Data : ODbL, CC0, Etalab et Choisir la Bonne Licence

Meilleures Sources de Données Ouvertes : Portails, Catalogues et APIs Publiques

Open Data et Service Public : Transparence, Gouvernance et Impact Citoyen

Pages

Informations