Blog

Synaltic / Actualités / #ParisAttacks – L’effroi en dataviz

Nov 17

#ParisAttacks – L’effroi en dataviz

Merci à Jonathan Trajkovic pour cette analyse. Nos pensées vont vers toutes celles et tous ceux touchés de près ou de loin par cette tragédie.

EDIT 18/11/2015 : Jonathan Trajkovic explique ses choix concernant cette data-visualisation.

Why this data-visualisation ?
I did this data-visualisation because I was really moved by all these attacks. Victims were in my age group… I live in Paris Xe so it was in my neighbourhood… I love going to concerts, drinking a beer with friends… being alive finally ! It was a way for me to pay tribute to victims.
Why these data?
I chose to use aggregated data because I did not have so much time. But I was really interested by row data with geolocations, users… I was also interested by retweets and bookmarks. In fact I would have loved to have each tweet… But as I told before, I did not have so much time.
Why did I choose a red color palette for all the story?
It was difficult for me to choose a design. I tried different palettes but none was good enough. When I tried the red palette, I told myself « Wow ! This is really agressive ! » and I thought about it a long time. I chose to use this even if it is agressive because, indeed, #ParisAttacks were really agressive… When my colleagues and friends looked at my visualization, they told me that there is too much red and it is agressive. I told them that it is the aim of red palette. I want readers to have the same feeling than me about #ParisAttacks. Apparently, it is working…
Why did I choose a story?
First I tried to do the visualisation in a one page presentation. But when I looked at the data and how hashtags move, I told myself a story could be a good solution. So I put annotations, corresponding to events Firday night, to comment hashtags’ variations.

dataviz paris attack 2015 tableau public

Cliquer sur l’image pour voir la dataviz sur le blog Tips & Viz

A propos de l'auteur: Jonathan Trajkovic

Jonathan Trajkovic est LE spécialiste de la pétanque au sein de la #SynalTeam. Ce chimiste de formation est aussi un grand amoureux de la musique folklorique morvandelle et un peu de Tableau (Zen Master 2015/2016).

Articles Suggérés

Premier Community Meetup Apache Iceberg sur Paris !

Rendez-vous le 19 juin 2025 à 18h au 32 Rue Blanche à Paris pour notre premier Community Meetup Apache Iceberg !

Voici les présentations qui auront lieues :

Comment j’ai rencontré Apache Iceberg ?
Charly clairmont, Synaltic

On est en 2019 ! On est dans un meeting avec Tomer Shiran ! A toutes les questions qui lui sont posées… Il répond que Apache Iceberg va résoudre ce problème !
Il faut avouer que l’on n’y comprenait pas grand-chose en 2019.
Plus tard, en 2020 Owen O’Malley, un des cofondateurs d’Hortonworks rejoint LinkedIn… Et il est l’une des personnes qui commence à le plus promouvoir Apache Iceberg… A cet instant là, j’étais loin d’imaginer que ce format table allait autant transformer le secteur.
Plus sérieusement, l’architecture vous amène à composer une stack : un collecteur avec le client C++ de Kafka, Kafka pour le transport des données, MinIO pour stocker les données, le format table Iceberg, Apache Flink pour la transformation… Et vous voilà en train de pousser des tables avec plus de 1000 colonnes ! Vous bouger la structure des données ! Et vous n’avez aucun souci de schéma… Alors vous vous arrêtez ! Vous repenser à ce que disait Tomer Shiran ! On est 5 ans plus tard !
Apache Iceberg présente une solution ACID et une interopérabilité multi-moteurs exceptionnelle, répondant de manière efficace à de nombreuses problématiques actuelles.

L’avènement du Lac de données ouvertes (FR)
Julien Le Dem, Datadog

Au cours de la dernière décennie, l’écosystème du big data a mûri et évolué, passant d’un melting-pot de projets concurrents à un écosystème composable organisé autour de quelques standards open source.
Les composants des bases de données, distribuées ou non, ont été transformés en produits de base, des pièces individuelles que chacun peut assembler pour créer des moteurs spécifiques à un cas d’utilisation. Définissez vos propres contraintes et, au lieu de tout construire à partir de zéro, vous pouvez tirer parti de ces pièces pour construire un moteur de requête qui résout votre problème. Cela en fait une « Base de Données Déconstruite » que vous pouvez recombiner à volonté.
Il a été incroyable de voir l’adoption de composants clés tels que Parquet, Arrow, Iceberg, Calcite et OpenLineage. Ils fournissent une couche d’interopérabilité qui permet d’utiliser les données à de nombreuses fins sans créer de silos ni de duplication.
Dans cette présentation, je discuterai de l’impact du cloud et de l’avènement du Lac de Données Ouvertes – rendu possible par le projet Iceberg – brisant les silos pour former la base de cet écosystème. Comme le calcul et le stockage peuvent être efficacement découplés, une couche de stockage commune permet un écosystème dynamique d’outils à la demande spécialisés pour des cas d’utilisation spécifiques, évitant ainsi le verrouillage fournisseur.
Je passerai en revue ces composants, comment ils fonctionnent ensemble et, plus important encore, les contrats qui les maintiennent découplés et composables.

Evolution & Future d’Apache Iceberg (FR)
Jean-Baptiste Onofre, Apache Software Foundation, Dremio

L’écosystème du lakehouse connaît une évolution rapide, notamment autour d’Apache Iceberg et du catalogue REST Apache Polaris. La présentation abordera Iceberg en tant que format de table ouvert essentiel, en détaillant comment sa gestion des métadonnées améliore l’évolution des schémas, optimise les performances des requêtes par le filtrage et la planification avancée, et offre une flexibilité accrue dans les stratégies de partitionnement, y compris le partitionnement caché. Les nouvelles fonctionnalités de la spécification Iceberg V3, telles que le support natif JSON, l’amélioration des suppressions positionnelles Parquet, le support géospatial et les transformations multi-colonnes, qui enrichissent ses capacités, seront également présentées.
Ensuite, l’importance des catalogues dans l’écosystème Iceberg sera soulignée, en mettant en évidence la standardisation apportée par la spécification du catalogue REST pour garantir l’interopérabilité entre les moteurs de calcul. Apache Polaris sera présenté comme une implémentation de référence de ce service de catalogue REST, en détaillant ses caractéristiques clés : interopérabilité des moteurs, gouvernance des données via le contrôle d’accès basé sur les rôles (RBAC) unifié, gestion de plusieurs catalogues au sein d’une instance unique et flexibilité de déploiement.

Governing the Lakehouse: Metadata-Driven Control with Apache Iceberg Catalogs (EN)
Viktor Kessler, Vakamo

Apache Iceberg has redefined how data is stored and queried in modern lakehouses by introducing a table format that supports ACID transactions, time travel, and schema evolution. At the heart of this transformation lies the Iceberg Catalog—a critical component that manages table metadata and connects distributed storage systems with compute engines.
Catalogs play a central role in enabling metadata-driven governance, allowing data teams to enforce consistency, traceability, and access control at scale. In this session, we explore how Iceberg’s metadata model empowers key governance capabilities such as auditability, reproducibility, multi-engine interoperability, and simplified lineage tracking.
But while Iceberg provides a solid foundation, essential governance features are still emerging. We’ll examine what’s missing today: fine-grained policy enforcement, unified access control, real-time metadata observability, and first-class support for data contracts. As Iceberg adoption grows, evolving the catalog layer will be key to achieving enterprise-grade governance in open lakehouse architectures.

INSCRIPTION
Iceberg Summit 2025 : Apache Iceberg un socle commun pour la données

1. Introduction : Apache Iceberg à l’Avant-Garde des Architectures de Données Modernes

Apache Iceberg s’est rapidement imposé comme un format de table ouvert de haute performance, essentiel pour la gestion de jeux de données analytiques au sein des data lakes et des lakehouses modernes. Il répond désormais à une gamme large de cas d’usage. Sa proposition de valeur fondamentale réside dans sa capacité à apporter la fiabilité et la simplicité des tables SQL. Tant les moteurs Apache Spark, Trino, Apache Flink, Presto, Apache Hive, Apache Impala que les moteurs de grandes plateformes Snowflake, Dremio, Confluent, Databricks, Microsoft Fabric, Crunchy (PostgreSQL), Rising wave, Single Store, Qlik (Upsolver), Fivetran, Airbyte (- et bien d’autres -) savent interagir de manière sécurisée et concurrente avec les mêmes tables au travers de l’API REST pour les catalogue Apache Iceberg.

Dans ce contexte d’adoption croissante, l’Iceberg Summit 2025, tenu les 8 et 9 avril en format hybride (San Francisco et virtuel), sous l’égide de l’Apache Software Foundation (ASF) et du Project Management Committee (PMC) d’Iceberg, ce sommet a réuni la communauté mondiale – des contributeurs principaux aux utilisateurs expérimentés et aux « curieux d’Iceberg » – pour partager des connaissances pratiques, explorer des cas d’usage réels et, de manière cruciale, façonner l’avenir de l’infrastructure de données.

Cet article vise à synthétiser les perspectives clés émanant de l’Iceberg Summit 2025 concernant la feuille de route future d’Apache Iceberg, son évolution technique, les tendances de l’écosystème.

L’implication marquée de fournisseurs majeurs et souvent concurrents – AWS, Dremio, Microsoft, Snowflake, Databricks, Cloudera – ainsi que des annonces stratégiques, indiquent une évolution significative. Apache Iceberg semble transcender son rôle initial de format de table pour s’établir comme un standard incontournable au cœur des architectures lakehouse ouvertes.

Cette convergence intersectorielle, où les acteurs majeurs investissent activement dans l’intégration de leurs forces propriétaires tout en contribuant à l’évolution du standard ouvert, suggère qu’Apache Iceberg devient un point de ralliement pour l’écosystème.

2. Evolution d’Apache Iceberg : V3 disponible, en Route vers la V4

L’évolution continue d’Apache Iceberg a été un thème central de l’Iceberg Summit 2025, avec des discussions portant à la fois sur les avancées récentes de la version 3 et sur les anticipations concernant la future version 4.

La version 3 d’Iceberg a introduit des fonctionnalités significatives qui élargissent considérablement les cas d’usage du format. Parmi les plus notables discutées lors du sommet figurent les nouveaux types de données Variant et Geospatial.

Le type Variant, a en particulier, suscité beaucoup d’intérêt car il promet de simplifier considérablement la gestion et l’interrogation des données JSON et semi-structurées directement au sein des tables Iceberg. Ceci répond à un besoin fréquent dans les pipelines de données modernes qui traitent des sources de données hétérogènes.

L’ajout du type Geospatial ouvre également de nouvelles perspectives pour les applications d’analyse spatiale directement sur le data lakehouse.

Les discussions vont déjà bon train autour d’Iceberg V4 ! En effet, cela concerne une modification architecturale clé : une disposition des métadonnées plus adaptative. Cette évolution vise à optimiser la structure interne de gestion des métadonnées d’Apache Iceberg. L’objectif est de remédier à certains goulots d’étranglement de performance observés avec la structure actuelle, notamment en améliorant significativement la vitesse de lecture pour les petites tables ou pour certains motifs de requêtes spécifiques qui sont moins performants aujourd’hui.

Ces développements, qu’il s’agisse des nouvelles fonctionnalités de la V3 ou de la planification de la V4, sont motivés par des objectifs plus larges. Il s’agit de rendre Apache Iceberg toujours plus accessible à un plus grand nombre de types de traitements. Les fondamentaux sont là (transactions ACID, voyage dans le temps, évolution de schéma) maintenant il s’agit par exemple d’être plus performant vis à vis des “petites tables”.

L’adoption plus large du format, l’extension de la communauté sont autant de facteurs qui poussent à prendre en compte ce type de traitements en particuliers.

3. Apache Iceberg : une Interopérabilité assumée

Comme expliqué en introduction l’une des forces d’Apache Iceberg est sont interopérabilité. Celle-ci est un moteur clé de son adoption, car elle offre aux organisations la flexibilité de choisir les meilleurs outils de calcul pour leurs besoins spécifiques, sans être enfermées dans un écosystème propriétaire au niveau du traitement.

Les fournisseurs de plateformes de données majeurs ont non seulement adopté Iceberg, mais ils investissent également massivement pour améliorer son intégration et ses performances au sein de leurs offres. Snowflake, par exemple, a fait des annonces significatives lors du sommet, indiquant qu’il étendait ses capacités principales – moteur de calcul performant, partage de données sécurisé, gouvernance, continuité d’activité et reprise après sinistre – pour fonctionner de manière transparente avec les tables Apache Iceberg. Leur objectif déclaré est de permettre aux clients de manipuler leurs données ouvertes stockées dans Iceberg exactement comme ils le feraient avec les tables natives de Snowflake, éliminant ainsi les compromis historiques entre ouverture et performance/fonctionnalités.

Des engagements similaires de haut niveau en faveur d’Iceberg ont été exprimés par d’autres acteurs clés comme AWS, Microsoft et Dremio, Google Big Query, Crunchy DB…

Au-delà de l’intégration au niveau des moteurs de calcul, une tendance claire émerge concernant la gestion des métadonnées Iceberg : l’adoption croissante des catalogues basés sur l’API REST comme le standard émergent.

Alors que des solutions historiques comme Hive Metastore ou des services cloud spécifiques comme AWS Glue Catalog sont encore utilisées, des organisations pionnières telles qu’Airbnb et Bloomberg ont développé leurs propres implémentations de catalogues compatibles REST, souvent adossées à des bases de données relationnelles comme PostgreSQL. Cette évolution vers des interfaces REST est motivée par la nécessité de débloquer un meilleur support multi-moteurs, de centraliser le contrôle d’accès et de permettre une gouvernance pilotée par les métadonnées de manière plus cohérente à travers l’écosystème.

Dans ce contexte, le projet Apache Polaris gagne en visibilité. Polaris vise à définir un standard ouvert et à fournir une implémentation de référence pour un service de catalogue Iceberg basé sur REST.

L’ascension des catalogues REST, et potentiellement d’un standard comme Polaris, apparaît comme un élément crucial pour réaliser pleinement la promesse d’ouverture d’Iceberg. Ainsi l’API standardisée devient l’élément essentiel pour mettre en œuvre une gouvernance cohérente et transversale (contrôle d’accès fin, masquage de colonnes) : les règles d’accès et de sécurité sont définies une et une seule fois.

4. PyIceberg : Intégration Python pour la Data Science et l’IA

PyIceberg constitue une pierre angulaire quant à l’adoption d’Apache Iceberg par les data scientist.

Les caractéristiques intrinsèques d’Iceberg – fiabilité transactionnelle (ACID), évolutivité (des schémas), capacité de voyage dans le temps (time travel), format ouvert et interopérable – sont cruciales pour construire des pipelines de données robustes nécessaires à l’entraînement de modèles d’apprentissage automatique (ML) et à l’alimentation d’applications d’IA.

Cependant, au-delà de la simple lecture ou écriture de tables, un défi spécifique a été mis en évidence : l‘exécution efficace de logique Python personnalisée, souvent sous forme de fonctions définies par l’utilisateur (User-Defined Functions – UDFs), directement sur les données résidant dans les tables Iceberg.

L’insistance sur le support Python et l’IA signale une expansion du rôle d’Iceberg au-delà de ses origines dans l’analytique à grande échelle. Initialement conçu pour optimiser les requêtes SQL sur de grands volumes de données tabulaires, Iceberg est de plus en plus sollicité par les data scientists pour leurs workflows ML. Les défis de performance rencontrés avec les UDFs Python soulignent la nécessité d’une intégration plus profonde entre le format de stockage (Iceberg) et les bibliothèques ou frameworks ML. Des fonctionnalités comme le voyage dans le temps, initialement utiles pour l’audit ou la correction d’erreurs, deviennent critiques pour la reproductibilité en ML, permettant de suivre précisément les versions de données utilisées pour entraîner un modèle spécifique.

Cette focalisation sur Python et l’IA indique qu’Iceberg pénètre activement le domaine des opérations d’apprentissage automatique (ML Ops).

5. Maintenir Apache Iceberg : Automatisation et Bonnes Pratiques Opérationnelles

À mesure qu’Apache Iceberg est déployé à plus grande échelle et pour des cas d’usage plus dynamiques, la gestion opérationnelle devient un enjeu majeur. Le Summit de 2025 a mis en lumière un fort intérêt pour l’automatisation des tâches de maintenance récurrentes des tables. Ces tâches incluent l’évolution des stratégies de partitionnement (par exemple, passer de partitions horaires à journalières sans interrompre les lectures), la compaction régulière des petits fichiers et l’expiration des anciens snapshots pour gérer l’espace de stockage et la rétention des données.

Face à ces défis, une bonne pratique émergente consiste à gérer les opérations Iceberg en appliquant les principes DevOps aux données. Des équipes construisent des interfaces et des processus qui s’appuient sur des configurations déclaratives (ex: YAML), des flux de validation via pull requests, des pipelines d’intégration et de déploiement continus (CI/CD), et des couches d’abstraction pour masquer la complexité sous-jacente et fournir un accès fluide et contrôlé aux plateformes de données pour les utilisateurs finaux.

Parallèlement, l’observabilité des données est de plus en plus reconnue comme une composante critique pour gérer la complexité des déploiements Iceberg, en particulier ceux impliquant du streaming, des évolutions de schéma fréquentes ou des pipelines multi-étapes. Il ne suffit plus de surveiller la santé des pipelines ou de l’infrastructure ; il est essentiel de détecter en temps réel les problèmes liés aux données elles-mêmes au sein des tables Iceberg.

L’ensemble de ces discussions sur l’automatisation, la gestion du streaming, les pratiques DevOps et l’observabilité convergent vers une conclusion importante : la maturité opérationnelle, et pas seulement l’ajout de nouvelles fonctionnalités au format lui-même, est la clé du succès à long terme d’Apache Iceberg.

6. Frontières de la Performance : Optimisation des Requêtes et Exploration de Nouveaux Formats

L’amélioration continue des performances des requêtes sur les tables Apache Iceberg reste une priorité majeure pour la communauté et les fournisseurs de l’écosystème. Des initiatives spécifiques aux vendeurs ont été annoncées lors du sommet, comme l’application par Snowflake de ses services propriétaires d’optimisation (Search Optimization Service) et d’accélération des requêtes (Query Acceleration Service) directement aux tables Iceberg. Dremio aussi, avec la sortie de sa version 26 intègre des fonctionnalités d’automatisation pour mieux “partitionner” les données et améliorer significativement les performances. L’objectif affiché est d’atteindre une parité de performance entre les données stockées dans des formats ouverts comme Iceberg et celles stockées dans les formats natifs des plateformes.

Au-delà des optimisations spécifiques aux moteurs, des considérations générales de performance liées à la structure même des tables Iceberg ont été discutées. Par exemple, l’impact de l’évolution du schéma (comme l’ajout de colonnes très larges) ou des modifications de la stratégie de partitionnement sur l’efficacité de l’élagage des fichiers (file pruning) et la vitesse globale des requêtes a été souligné, nécessitant une surveillance attentive des métriques de performance comme la latence des requêtes et le nombre de fichiers scannés.

Parallèlement aux optimisations basées sur les moteurs et la structure des tables Iceberg, un intérêt notable émerge au sein de la communauté pour l’exploration de nouveaux formats de fichiers colonnaires qui pourraient potentiellement remplacer ou compléter le format Parquet, actuellement omniprésent. Les formats Vortex et Lance ont été cités comme exemples lors des discussions du sommet. La motivation derrière cette exploration est la possibilité que ces formats plus récents offrent des avantages de performance significatifs pour des types spécifiques de requêtes ou des caractéristiques de données particulières.

Cet intérêt pour de nouveaux formats de fichiers sous-jacents est logiquement lié à une demande croissante pour des moteurs de données capables de lire de manière transparente plusieurs formats de fichiers (Avro, Parquet, ORC, Lance, Vortex, etc.) au sein d’un même environnement lakehouse géré par Iceberg.12 Cela reflète un désir de flexibilité architecturale, permettant aux équipes de choisir le format de fichier le plus approprié pour chaque jeu de données ou cas d’usage spécifique, tout en bénéficiant de la couche de gestion unifiée fournie par Iceberg.

7. Gouvernance et Sécurité dans les Lakehouses Ouverts

Avec la pénétration croissante d’Apache Iceberg dans les environnements d’entreprise, l’accent mis sur les fonctionnalités robustes de gouvernance des données et de sécurité s’intensifie. Les discussions lors de l’Iceberg Summit 2025 ont clairement indiqué que des capacités telles que la sécurité au niveau des lignes (row-level security), le masquage des colonnes (column masking) et le contrôle d’accès fin basé sur les rôles (RBAC) sont des exigences prioritaires, en particulier pour les grandes organisations.

Les fournisseurs de plateformes de données, conscients de ces besoins critiques, s’efforcent d’étendre leurs cadres de sécurité et de gouvernance existants pour englober de manière transparente les tables Iceberg. Snowflake, par exemple, a explicitement annoncé l’application de ses contrôles de sécurité, de ses fonctionnalités de conformité, et même de ses capacités de continuité d’activité (réplication, reprise après sinistre) aux tables Iceberg gérées ou externes. L’objectif est d’offrir un niveau de contrôle et de protection équivalent à celui des tables natives, sécurisant ainsi les environnements lakehouse ouverts. Tous les fournisseurs s’efforcent de pourvoir un tel niveau de sécurité. Crunchy Data qui a annoncé son data warehouse soutenu par PostgreSQL et dont le stockage repose sur Apache Iceberg, a intégré nativement la sécurité de PostgreSQL à Iceberg ! Idem pour Dremio !

Le catalogue Iceberg joue un rôle central dans la mise en œuvre de ces politiques de gouvernance. Comme mentionné précédemment, les catalogues basés sur REST (et potentiellement standardisés via Apache Polaris) sont considérés comme le point d’application idéal pour définir et faire respecter les règles de sécurité et d’accès de manière cohérente, quel que soit le moteur de calcul utilisé pour interroger les données. Cependant, il a également été noté que les catalogues open source (OSS) sont actuellement en phase de rattrapage par rapport aux plateformes commerciales matures en ce qui concerne l’exhaustivité et la facilité de gestion des fonctionnalités de gouvernance d’entreprise.

8. Dynamique Communautaire et Perspectives d’Avenir

Le succès et l’évolution rapide d’Apache Iceberg reposent en grande partie sur une communauté open source dynamique et collaborative. L’Iceberg Summit 2025 a été une vitrine de cette communauté, rassemblant des contributeurs individuels, des ingénieurs de diverses entreprises et des utilisateurs pour partager leurs expériences et façonner collectivement l’avenir du projet. L’importance de l’implication communautaire a été soulignée à plusieurs reprises, que ce soit pour influencer la feuille de route technique, contribuer au code, améliorer la documentation (un excellent moyen de s’impliquer et d’apprendre), ou présenter des cas d’usage concrets et des meilleures pratiques lors d’événements comme le sommet.

Un facteur clé de cette dynamique est le soutien et l’investissement significatifs de la part des principaux acteurs de l’industrie. Des entreprises comme AWS, Snowflake, Microsoft, Dremio, et bien d’autres, ne sont pas seulement des utilisateurs d’Iceberg, mais aussi des contributeurs actifs à son développement, intégrant le format dans leurs plateformes et participant à sa gouvernance. Cette implication industrielle massive est un indicateur fort de l’importance stratégique d’Iceberg et agit comme un puissant catalyseur pour l’innovation. Il est particulièrement notable que cette collaboration se produise même entre concurrents directs, opérant sous le modèle de gouvernance neutre de l’Apache Software Foundation (ASF).

Ce modèle de « coopétition », où des entreprises concurrentes sur le marché collaborent au développement du standard ouvert sous-jacent, semble être un moteur majeur de l’accélération du développement d’Iceberg. Il apporte des ressources d’ingénierie considérables et des perspectives diverses au projet central, ce qui conduit probablement à une innovation plus rapide et à une plus grande robustesse par rapport à un projet mené par un seul fournisseur ou une communauté plus restreinte.

Les fournisseurs sont incités à contribuer en amont les fonctionnalités dont ils ont besoin pour leurs propres plateformes afin d’assurer la compatibilité et de tirer parti de l’écosystème plus large. Pour les utilisateurs, cela se traduit par une innovation rapide et un standard qui bénéficie des investissements de multiples acteurs.

9. Conclusion : que retenir ?

L’Iceberg Summit 2025 a confirmé et éclairé la trajectoire ascendante d’Apache Iceberg en tant que standard de facto pour les tables analytiques dans les architectures de données modernes.

Les discussions et annonces ont mis en évidence plusieurs tendances clés qui façonneront son avenir à court et moyen terme.

L’évolution vers la version 4, avec son accent attendu sur une disposition adaptative des métadonnées, promet des gains de performance significatifs, en particulier pour des scénarios qui étaient moins optimisés auparavant, comme la lecture de petites tables.

Parallèlement, l’émergence des catalogues REST, potentiellement standardisés par Apache Polaris, est en passe de révolutionner l’interopérabilité et la gouvernance centralisée, découplant les moteurs de calcul de la gestion des métadonnées.

L’intégration de plus en plus profonde avec Python pour répondre aux besoins de la data science et de l’IA est devenue une priorité absolue, bien que des défis de performance subsistent, notamment pour les UDFs.

Face à la complexité inhérente aux déploiements à grande échelle, en particulier avec l’ingestion en streaming, la nécessité d’une automatisation poussée de la maintenance, de l’adoption de pratiques DevOps et de solutions d’observabilité des données est devenue incontournable.

Enfin, la quête de performances optimales se poursuit sur plusieurs fronts (moteurs, format, fichiers sous-jacents), et la maturation des fonctionnalités de gouvernance est essentielle pour l’adoption en entreprise.

La valeur fondamentale d’Apache Iceberg réside dans sa capacité à fournir une fondation ouverte, fiable et performante, comblant efficacement le fossé historique entre la flexibilité brute des data lakes et la structure rigide mais fiable des data warehouses. Il permet aux organisations de construire des lakehouses ouverts.,

En définitive, Apache Iceberg semble solidement engagé sur une trajectoire de croissance continue et de consolidation en tant que pilier incontournable de l’écosystème des données ouvertes. Poussé par la collaboration communautaire et les investissements stratégiques de l’industrie, il est bien positionné pour continuer à définir l’avenir des infrastructures de données analytiques.

Vous pouvez découvrir en détail Apache Iceberg avec notre livre blanc.

Toutes les sessions de Iceberg Summit 2025.
Dremio et les couches sémantiques avec dbt

Exemple d’utilisation de dbt core avec Dremio software #2

Introduction

dbt (data build tool) offre la possibilité de vous aider à organiser et mettre à jour de manière cohérente vos couches sémantiques de données dans Dremio tout en contrôlant la qualité des données grâce aux tests. De plus, dbt vous permet de passer d’un environnement de développement à un environnement de production très facilement.

Dans cet article nous allons illustrer la construction de couches sémantiques dans Dremio et montrer des exemples d’utilisation de certaines fonctionnalités qu’offre dbt : les tests, l’utilisation de code jinja et les macros.

Sommaire

Prérequis

Présentation de l’exercice

Construction des couches sémantiques dans Dremio

Arborescence et configuration

La couche bronze

La couche silver

La couche gold

Création dans Dremio

Exemple d’utilisation des tests, la qualité des données

Les tests singuliers

Les tests génériques

Exemple d’utilisation de code jinja et des macros

Du code jinja dans la définition d’un modèle

Du code jinja dans la définition d’un test

Utilisation d’une macro dans la définition d’un modèle

Conclusion

Prérequis

Dremio cloud ou Dremio Software (version 22.0 ou supérieures).

dbt-dremio installé (assurez-vous que Python 3.8.x ou une version ultérieure est installée, ainsi que git).

Avoir une connaissance basique du langage sql (ainsi que les CTE).

Compétences basiques dans l’utilisation de la ligne de commande.

Dans la suite, VisualStudio code sera utilisé pour éditer les fichiers du projet. Vous pouvez utiliser un autre IDE ou l’éditeur de fichier de votre choix.

Dans cet article nous travaillerons sur un environnement linux (ubuntu) avec Dremio software connecté à une base de données postgres (BDLearn) où le jeux de données est disponible ici.

Présentation de l’exercice

L’objectif de cet article est d’illustrer comment utiliser dbt pour construire des couches sémantiques de données dans Dremio. Nous le ferons avec l’exemple suivant.

Le jeu de données représente la location de dvd dans des magasins, il contient des informations sur les films, les magasins de location et les locations, ainsi que les clients et le personnel des magasins. Pour l’exercice nous nous concentrerons sur le prêt de film et nous allons construire nos couches de données afin de répondre aux questions suivantes (nous ne nous intéresserons pas aux clients, aux magasins ou aux personnels).

Quels sont les films les plus regardés ? Lesquels génèrent le plus de bénéfices et à quelle catégorie appartiennent-il ? Quels sont les films peu ou pas empruntés ?

Parmi les films les plus empruntés, quelle est la durée des films ? Est elle similaire ?

Combien de films il y a par catégorie ? Quel genre de film est le plus emprunté ? Quelle catégorie de film génère le plus de bénéfices ?

Combien est ce qu’il y a de langue de film dans l’inventaire ? Les films dans quelle langue sont les plus empruntés ?

Pour cela nous nous intéresserons aux tables suivantes de la base de données :

Construction des couches sémantiques dans Dremio

Lors de l’initialisation d’un projet dbt, nous avons l’arborescence du projet ci-contre (voir l’article précédent initialiser un projet).

Nous nous intéresserons dans la suite, uniquement au dossier models/, tests/, macros/, dbt_packages/ et au fichier dbt_project.yml du projet dbt.

Commençons l’exercice par créer l’arborescence et la configuration des modèles.

Arborescence et configuration

Construisons nos couches de données dans Dremio comme suit :

une 1ère couche (bronze) qui sera le reflet des tables de la base de données qui nous intéresse.

une 2ème couche (silver) où nous allons regrouper les tables selon leur catégorie. Nous aurons deux vues, l’une concernant les films et l’autre concernant leur emprunt.

une 3ème couche applicative (gold), où nous aurons une vue qui englobera toutes les informations permettant de répondre à nos questions pour l’analyse.

Sous le répertoire modèle nous allons créer une arborescence similaire à celle que l’on souhaite avoir dans Dremio pour faciliter l’écriture de la configuration et l’organisation du projet.

Et dans le fichier dbt_project.yml nous allons écrire la configuration de nos modèles. Tous nos modèles seront matérialisés en vue et seront créés dans le même space Dremio ‘dbt_learn’. De plus, dans le space ‘dbt_learn’ on va créer un répertoire par couche de données (bronze, silver et gold). Dans le répertoire bronze on placera tous les modèles du répertoire models/dbt_learn/0_bronze du projet, dans silver ceux du répertoire models/dbt_learn/1_silver et dans gold ceux du répertoire models/dbt_learn/2_gold.

Construisons maintenant les modèles couche par couche.

La couche bronze

Dans le répertoire 0_bronze/ ajoutons 7 modèles (fichiers .sql) et un fichier bronze_config.yml pour leur configuration et les tests (que l’on verra plus tard).

Définissons les modèles comme le reflet des tables du modèle de données présenté précédemment. Par exemple pour la table category on écrira la requête suivante :

Pour référencer les tables physiques dans Dremio on va utiliser le bloc de code source {{source()}} au lieu de référencer la table directement comme nous l’aurions fait dans Dremio. C’est une bonne pratique de l’utiliser car de cette façon, si un changement survient dans la base de données il n’y aura plus besoin de venir dans chaque modèle pour modifier la référence de la table, mais juste dans le fichier .yml où sa définition aura été notée. De plus, pour la documentation du projet ça permettra de connaître les sources qui ont permis de construire les modèles. Nous ne verrons pas la partie documentation que pourvoit dbt dans cet article mais dbt fournit un lineage qui est généré à partir de la définition de nos modèles grâce aux bloc {{source()}} et {{ref()}} (que nous verrons dans la partie suivante).

Sous le répertoire models/dbt_learn/ on va créer un fichier source.yml avec le contenu suivant :

Les références entre Dremio et dbt sont expliquées dans le schéma suivant :

Les modèles de la couche bronze sont maintenant prêts.

La couche silver

Au-dessus des modèles de la couche bronze nous allons construire deux modèles sous le répertoire /1_silver.

Pour lier ces modèles aux modèles le la couche bronze on va utiliser le bloc de code {{ref()}}. Définissons les modèles comme suit.

La couche gold

Enfin, au-dessus de la couche silver on va créer un modèle en vue de répondre à notre analyse. Ajoutons un fichier .sql sous le répertoire /2_gold.

Définissons le modèle comme suit.

Création dans Dremio

Actuellement, nous n’avons rien dans Dremio à part la connexion à la base de données.

Ajoutons nos couches sémantiques définies avec dbt dans Dremio en exécutant la commande suivante :

dbt run --select models/dbt_learn # tous les modèles present dans le répertoire models/dbt_learn ou dbt run --select +rented_film # le model rented_film et tous les modèles parents

Nos 10 vues ont bien été créées dans Dremio et le space ainsi que les répertoires se sont créés :

On observe dans les logs d’exécution que les modèles se construisent dans l’ordre des couches, c’est grâce aux références entre les modèles.

Les données sont maintenant prêtes à être exploitées pour l’analyse.

Exemple d’utilisation des tests, la qualité des données

dbt est très pratique pour exécuter un grand nombre de tests de qualité sur les données. Écrire des tests va permettre d’effectuer un contrôle sur les données manipulées, de s’assurer que les données sont conformes à ce qui est attendu (éviter les surprise après coût) et de vérifier la fraîcheur des données sources.

Il existe deux types de tests, les tests singuliers et les tests génériques. Les tests singuliers sont, comme son nom l’indique, des tests pour un modèle spécifique (ou groupe de modèles) que l’on écrit soit même. Et les tests génériques sont des tests réutilisables qui peuvent être appliqué à plusieurs modèles. Il y a des tests génériques intégrés (built-in ou pre-built generic tests), ce sont 4 tests prédéfinis que l’on peut utiliser directement sur un modèle, et les tests génériques personnalisés (custom generic tests) que l’on écrit soit même. Illustrons l’utilisation des tests avec nos modèles précédemment construits.

Les tests singuliers

Les tests personnalisés sont à définir dans le répertoire tests/, dans un fichier sql. Le test est conçu pour un modèle unique. La requête doit identifier les lignes où la condition n’est pas remplie.

En voici un exemple :

Dans l’exemple, on veut que la date à laquelle on empreinte le film (rental_date) soit antérieure à la date à laquelle on rend le film (return_date). La condition n’est donc pas remplie lorsque rental_date > return_date. La commande dbt test va permettre de lancer le test. Ici nous souhaitons uniquement lancer ce test, pour cela nous allons lancer la commande dbt test -s test_rental_check_date.

Le test est passé donc on a bien la date rental_date antérieur à la date return_date.

Les tests génériques

Les tests intégrés :

Il existe 4 tests génériques prédéfinie :

unique

not_null

relationship

accepted_values

Ces tests sont à définir dans un fichier .yml dans le répertoire models/. Implémentons ces 4 tests pour le modèle film dans le fichier bronze_config.yml. Vérifions que la colonne film_id ne contient pas de valeur nulle et contient des valeurs uniques. Que les valeurs de la colonne language_id sont bien présentes dans la colonne language_id du modèle language et qu’elles sont non nulles (notion de clé étrangère). Et enfin que les valeurs de la colonne rating soit l’une des valeurs suivantes : R, PG-13, NC-17, PG ou G.

Exécutons les tests du modèle film avec la commande suivante : dbt test -s film

Les tests personnalisés :

Ces tests, une fois définis, peuvent être réutilisés pour plusieurs modèles. Ils sont créés avec du code Jinja dans un bloc test et placés dans le répertoire /macros ou vous pouvez créer un répertoire generic sous le répertoire tests/ et les y placer.

Ajoutons le test not_empty_string à la colonne name du modèle category. Et exécutons les tests du modèle category avec la commande dbt test -s category.

Nous ne le verrons pas dans cet article mais dbt offre la possibilité d’utiliser des packages. Les packages permettent par exemple d’importer des tests déjà implémentés par d’autres dans votre projet et de les utiliser comme les tests génériques. Cela permet de ne pas réinventer la roue.

Exemple d’utilisation de code jinja et des macros

Nous ne verrons pas en détail dans cet article la syntaxe et tout ce qu’offre le code jinja et les macros dans un projet dbt, mais nous allons présenter quelques exemples d’utilisation.

Du code jinja dans la définition d’un modèle

Dans le jeux de données il y a la présence de 6 tables “payment” pour les 6 premiers mois de 2020. Imaginons que l’on souhaite avoir une vue regroupant l’ensemble de ces tables, il faudrait faire l’union de toutes ces tables. En utilisant du code jinja on a la possibilité de faire une itération sur le nom des tables. Voici un exemple :

Du code jinja dans la définition d’un test singulier

Écrivons un test qui permet que les tables dans la source contiennent au moins un certain nombre de ligne. Ce test peut être utile par exemple si on est dans un environnement de recette et que l’on souhaite vérifier que le jeu de données qu’on test est suffisant.

Le test nous dit que 2 tables n’ont pas un nombre de lignes suffisant. Et effectivement la table category et language ne respecte pas les conditions.

Utilisation d’une macro dans la définition d’un modèle

Imaginons que dans plusieurs modèles nous ayons besoin de faire l’agrégation COUNT et SUM sur une colonne, comme nous l’avons fait pour le modèle de la couche gold. Nous pourrions écrire une macro qui ferait ces opérations et l’utiliser après dans ces modèles.

Dans le dossier macros/ on va ajouter un fichier “aggregate_calculation.sql”. Et dans ce fichier on va ajouter le code suivant :

Dans un même fichier il est possible de définir plusieurs macros.

Maintenant dans notre modèle rented_film, faisons référence à la macro que nous venons d’ajouter :

Conclusion

Dans cet article nous avons vu un exemple de comment créer des couches sémantiques dans Dremio avec dbt. Nous avons également vu comment utiliser les tests pour contrôler la qualité des données utilisées et comment utiliser du code jinja ou des macro dans la définition de nos modèles.

Dans un prochain article on illustrera d’autres fonctionnalités qu’offre dbt.

Ressource pour aller plus loin :

1er article : Démarrer un projet dbt avec Dremio

Using dbt to Manage Your Dremio Semantic Layer

Semantic Layer CI/CD with Dremio and dbt

Cours dbt

Best practices

Jinja cheatsheet

© Synaltic 2025