Open DataOutilsProjetsCommunauté

Plateformes de Publication Open Data : CKAN, data.gouv.fr et Alternatives

L'écosystème des plateformes open data en 2024

Publier des données ouvertes ne s'improvise pas. Derrière chaque jeu de données accessible au grand public se cache une infrastructure technique capable de gérer métadonnées, API, licences et volumétrie. Trois grandes familles de solutions structurent ce marché : les logiciels open source déployables en autonomie, les plateformes nationales mutualisées, et les solutions SaaS hébergées. Comprendre leurs différences aide à aligner le bon outil avec les contraintes réelles d'un projet.


CKAN : le standard de facto des portails open data

Architecture et fonctionnalités

CKAN (Comprehensive Knowledge Archive Network) reste, après plus de quinze ans, la référence mondiale en matière de portail open data. Développé par l'Open Knowledge Foundation et maintenu par une communauté active, il propulse des portails comme data.gov (États-Unis), open.canada.ca ou data.europa.eu. Son architecture est modulaire : un cœur Python/Flask auquel s'ajoutent des extensions couvrant visualisation, géospatial, validation de schémas et authentification fédérée.

La gestion des métadonnées suit le standard DCAT, ce qui garantit l'interopérabilité entre portails. Chaque jeu de données dispose d'une fiche structurée incluant titre, description, organisation productrice, fréquence de mise à jour, licence et aperçu des ressources. L'API REST intégrée permet à des tiers d'interroger ou d'alimenter le catalogue de manière programmatique.

Forces et limites opérationnelles

CKAN se distingue par sa flexibilité. Le catalogue d'extensions dépasse la centaine de modules et la communauté GitHub reste très active. Son déploiement est gratuit, mais le coût total de possession (TCO) est souvent sous-estimé : infrastructure serveur, compétences DevOps, maintenance des extensions et mises à jour représentent un investissement réel.

La montée en charge mérite aussi attention. Au-delà de quelques dizaines de milliers de jeux de données et de plusieurs millions de requêtes API quotidiennes, les performances se dégradent sans architecture soignée (ElasticSearch dédié, load balancing, CDN). C'est pourquoi certaines grandes collectivités optent pour une instance hébergée chez des prestataires spécialisés plutôt qu'une gestion en régie totale.


data.gouv.fr : le modèle français de mutualisation

Un portail national pour 130 000 jeux de données

Lancé en 2011 et porté par Étalab (direction interministérielle du numérique), data.gouv.fr repose sur Udata, d'abord un fork de CKAN, puis refondu en solution propre. Le portail recense aujourd'hui plus de 130 000 jeux de données publiés par des milliers d'organisations : ministères, collectivités, opérateurs publics, et producteurs issus de la société civile depuis l'ouverture aux réutilisateurs.

Sa particularité la plus notable est le concept de réutilisation : toute personne peut déclarer une réutilisation d'un jeu de données et la lier à la fiche source. Cette boucle entre producteurs et consommateurs de données anime une communauté de 100 000 utilisateurs inscrits. Le portail met aussi en avant les données de référence (base adresse nationale, SIRENE, RPG agricole) accessibles via des API stables et documentées.

Ce que data.gouv.fr apporte aux producteurs de données

Pour une administration française, publier sur data.gouv.fr présente plusieurs avantages concrets. L'hébergement est mutualisé et pris en charge par l'État, ce qui supprime le coût d'infrastructure. L'interopérabilité avec le catalogue européen data.europa.eu est assurée via moissonnage automatique. Les producteurs ont accès à un tableau de bord d'analyse d'audience et de téléchargements.

La limite principale reste la personnalisation. data.gouv.fr est un catalogue national généraliste. Une collectivité souhaitant un portail à son image, avec ses propres domaines thématiques et ses outils de visualisation intégrés, devra soit créer un portail local qui moissonne vers data.gouv.fr, soit opter pour une solution complémentaire.


Les alternatives : un marché diversifié

Opendatasoft : SaaS orienté valorisation

Opendatasoft est une entreprise française proposant une plateforme SaaS complète de publication et de valorisation de données ouvertes. Présente dans plus de 70 pays, elle équipe des clients comme Paris, la Région Île-de-France, RTE ou SNCF. Sa différenciation principale : l'expérience utilisateur prime sur le simple catalogue.

La plateforme intègre nativement des outils de visualisation (cartes, graphiques, tableaux de bord) configurables sans code, une API générée automatiquement pour chaque jeu de données, et un module de gestion de portail en marque blanche. Le coût est bien plus élevé qu'une solution open source auto-hébergée, mais le TCO global peut s'avérer compétitif quand on retire la charge DevOps de l'équation.

ArcGIS Open Data et GeoNetwork : les solutions orientées géo

Pour les producteurs de données à forte composante géographique, deux solutions méritent attention. ArcGIS Open Data (Esri) s'intègre nativement aux infrastructures existantes d'ArcGIS Portal et génère automatiquement un portail open data à partir des couches publiées. C'est la solution de facilité pour les collectivités déjà équipées en outils Esri, mais la dépendance à un éditeur propriétaire reste un risque à ne pas négliger.

GeoNetwork est l'alternative open source de référence pour les catalogues de métadonnées géographiques. Il met en œuvre les normes ISO 19115 et INSPIRE, indispensables pour les infrastructures de données spatiales européennes. On l'utilise souvent en complément de CKAN : GeoNetwork gère les métadonnées géo normées, CKAN assure la diffusion généraliste.

Socrata / Tyler Data & Insights et Dataverse

Socrata, racheté par Tyler Technologies et rebaptisé Tyler Data & Insights, reste très présent dans les administrations américaines. Sa proposition de valeur repose sur des outils d'analyse intégrés et une API REST robuste. Son adoption en Europe reste marginale face à CKAN et Opendatasoft.

Dataverse, développé par Harvard, cible spécifiquement la publication de données de recherche scientifique. Il gère finement le versioning, la citation (DOI automatique) et la reproduction des analyses. Il équipe de nombreuses universités et organismes de recherche en France, dont Recherche Data Gouv, la plateforme nationale pour les données de la recherche.


Critères de sélection : quel outil pour quel besoin ?

Analyser ses contraintes avant de choisir

Le choix d'une plateforme open data ne se réduit pas à une comparaison de fonctionnalités. Quatre dimensions structurent la décision :

  • Volumétrie et fréquence de mise à jour : un catalogue de 50 jeux de données statiques n'impose pas les mêmes exigences qu'un portail temps réel avec 500 flux automatisés.
  • Compétences internes disponibles : CKAN auto-hébergé suppose un profil DevOps qualifié en interne ou un prestataire dédié.
  • Interopérabilité requise : le moissonnage vers data.gouv.fr, data.europa.eu ou des portails thématiques conditionne le choix du moteur de métadonnées.
  • Budget pluriannuel : une solution SaaS à 30 000 € par an peut revenir moins cher qu'une solution open source dont la maintenance interne mobilise 0,3 ETP.

Tableau comparatif

| Critère | CKAN | data.gouv.fr | Opendatasoft | Dataverse | |---|---|---|---|---| | Coût licence | Gratuit | Gratuit | Payant (SaaS) | Gratuit | | Hébergement | Auto-géré | Mutualisé État | Hébergé éditeur | Auto-géré | | Personnalisation | Haute | Faible | Moyenne | Moyenne | | Interopérabilité DCAT | Oui | Oui | Oui | Partielle | | Visualisation native | Via plugins | Limitée | Avancée | Non | | Cible principale | Généraliste | Administrations FR | Collectivités/Entreprises | Recherche |


Vers une architecture hybride

La tendance observée chez les collectivités et opérateurs matures n'est plus au choix unique. L'architecture hybride combine un portail local (CKAN ou Opendatasoft) pour la mise en valeur et l'expérience utilisateur, et un moissonnage automatique vers les agrégateurs nationaux (data.gouv.fr) et européens (data.europa.eu). Cette approche maximise la visibilité des données tout en préservant la maîtrise de l'expérience de publication.

Les API occupent une place centrale dans cette logique. Un jeu de données bien exposé via API REST ou OGC Features API peut alimenter simultanément un portail grand public, des applications tierces et des outils de dataviz sectoriels, sans duplication de la donnée source. C'est ce modèle « API-first, catalogue-second » qui structure les projets les plus avancés en matière d'open data infrastructurel.