Plusieurs projets que nous avons réalisés pour nos clients nous ont amenés à croiser leurs données avec des jeux de données libres afin d’apporter des informations critiques et une analyse poussée à leurs collaborateurs. En effet, ces dernières années l’Open Data est un sujet qui a beaucoup fait parler grâce à la politique d’ouverture des données publiques. La plateforme des données publique Data Gouv recense pas moins de 37 724 jeux de données couvrant de nombreux sujets.
La France est l’un des leaders mondiaux en termes d’ouverture de données. Depuis plusieurs années, les ministères et les collectivités ont mis à disposition de nombreux jeux de données sur différents sujets comme l’économie, le marché français, l’activité des entités institutionnelles, la composition et l’évolution du territoire etc… L’ouverture des données vise à mettre en place une relation de transparence entre les institutions et les citoyens. C’est une initiative qui renforce à la fois le processus démocratique et la prise de décision rationnelle. Une analyse de ces données permet de prendre des décisions qui sont issues de faits plutôt que de s’en remettre à des perceptions subjectives de tendances.
Cependant, l’ouverture des données s’est déroulée sans réelle mise en place de standards ou d’outils permettant une utilisation concrète de ces jeux de données. Chaque acteur a donc sa propre manière de publier ses données, avec son propre rythme et son propre format. Les données publiées ne sont pas nécessairement d’une très bonne qualité ou facilement compréhensibles et nécessitent la plupart du temps un apprentissage spécifique avant de pouvoir pleinement être utilisées. Même si l’idée de l’ouverture des données est pleine de potentiel, réaliser une exploitation de ces données nécessite de résoudre plusieurs problèmes concrets qui freinent l’adoption de cette technologie par les acteurs privés.
Les jeux et acteurs de l’open data
Afin de vous donner une idée des données libres que l’on peut trouver voici une liste (non-exhaustive) de jeux de données à haute valeur ajoutée :
- SIREN (INSEE): Ce jeux répertorie toutes les personnes morales de france. Il est très utile pour acquérir des informations sur une entreprise et ses établissements.
- Statistiques locales (INSEE): Les statistiques de l’INSEE permettent de mieux comprendre les dynamiques régissant le territoire français. Elles sont très utiles pour les analyses géographiques et la visualisation de données cartographiques.
- Base d’Adresses Nationale (Collaboration): La base d’adresse nationale permet la validation d’adresse et leur géolocalisation. Elle permet de facilement préparer un jeux de données pour une analyse géographique.
- Comptes Annuels (INPI): Les comptes annuels détaillés de plusieurs centaines de milliers d’entreprises sont maintenant disponible et permettent des analyses financière poussées sur des ensembles d’entreprises. Ces comptes permettent aussi d’évaluer facilement la santé financière d’une entreprise.
- Immatriculation, Modification, Radiation (INPI): L’ensemble des événements de la vie d’une entreprise permet de suivre facilement l’évolution de ses clients et des nouveaux acteurs du marché.
On peut noter que l’INSEE, en tant que producteur national de statistiques, s’impose comme un acteur incontournable de l’Open Data. L’INPI propose des données qui étaient auparavant sous le monopole des greffiers, il n’est donc plus nécessaire de consulter ces données sur des sites payants. Les différents ministères ont chacun leur degré d’avancement sur le sujet avec des données parfois très spécialisées qui peuvent intéresser des industries bien précises (tourisme, agriculture, santé etc…).
Les problématiques de la valorisation de l’Open Data
Si un jeu de données peut paraître intéressant, l’intégrer dans vos bases afin de pouvoir le croiser avec vos propres données métier peut vite se transformer en parcours du combattant. Par exemple, les comptes annuels des sociétés sont disponible au format XML dans des archives .zip sur un serveur FTP. Une fois le fichier extrait et téléchargé, chaque valeur doit être identifiée selon le type de compte, la page, la liasse et sa référence. Le traitement peut vite se révéler compliqué surtout lors de l’évolution des spécification du jeux de données.
En effet, le format d’un jeu de données est souvent réfléchi pour faciliter l’export de la base de données du fournisseur mais pas forcément pour permettre une réutilisation ergonomique pour un grand nombre d’utilisateurs, qui ont chacun leur infrastructure technique et leurs besoins spécifiques. Lorsque nous préparons ces jeux de données ouverts nous essayons donc de les standardiser au maximum afin de pouvoir les réutiliser facilement dans plusieurs projets.
Parmi les jeux de données libres, les mises à jour les plus régulières sont généralement quotidiennes. Nous pouvons donc nous permettre d’indexer ces données sur Elasticsearch afin de bénéficier des performances et des fonctionnalités avancées d’un moteur de recherche moderne. Nous suivons aussi l’actualité de ces jeux de données afin d’anticiper les évolutions nécessaires à leur traitement. Par exemple, la version 3 de l’API Siren a nécessité de nombreux changements que nous avons préparés en amont.
La valeur de l’Open Data

Photo Raw Pixel sur Pexels
Si récupérer ces jeux de données peut s’avérer compliqué, le gain d’informations qui en résulte apporte une valeur ajoutée conséquente à vos propres données. À titre d’exemple, voici quelques cas d’usages que nous avons pu identifier :
- J’ai une adresse, je veux la valider, trouver sa localisation GPS, son code géographique INSEE etc… afin de l’utiliser dans des analyses géographiques,
- J’ai le numéro SIREN d’une entreprise, je veux trouver des informations à son sujet et je veux vérifier la viabilité de cette entreprise afin de cimenter un partenariat,
- J’ai besoin d’enrichir fonctionnellement mes données d’entreprise pour mes tableaux de bords ou applications métier, je vais donc recroiser mes données avec des jeux de données libres pertinents.
Enrichir directement vos données c’est réaliser un apport externe à votre patrimoine de données, et permettre d’améliorer vos analyses stratégiques, car elles ne seront plus limitées uniquement à vos données internes. Le résultat de ces analyses sera donc plus précis et les décisions qui en suivront, plus efficaces.
Apporter des informations critiques à vos collaborateurs directement dans leurs applications métier permet de leur économiser du temps de recherche d’informations, voir même de leur apporter des informations auxquelles ils n’avaient pas accès. Cela permet d’augmenter leur productivité et leur qualité de vie au travail.
Enfin, capitaliser sur les données libres vous apportera des atouts que vos concurrents n’ont pas forcément. Maîtriser les jeux de données libres pertinent à votre industrie vous permettra d’identifier des opportunités ou résoudre des problèmes avant les autres.
Malgré les difficultés que présente l’intégration des jeux de données libres, les bénéfices sont indéniables. Nous essayons de développer une offres d’intégration de jeux de données libres adaptée aux besoins de nos clients et nous avons besoin de vous pour continuer d’explorer ces besoins.

Croisez vos données avec les Open Data !
Fort de son expérience en intégration de donnée, Synaltic peut vous accompagner dans la mise à disposition des données ouvertes dans votre Data Warehouse, votre Data Lakehouse ou directement dans vos applications.
Par exemple, en croisant vos données et les données ouvertes, vous pourrez sélectionner une zone géographique précise et y faire apparaître instantanément les critères socio-démographique issus des données de l’INSEE, ou encore les données de l’INPI ou de la Base d’Adresses Nationale.