Rendez-vous le 19 juin 2025 à 18h au 32 Rue Blanche à Paris pour notre premier Community Meetup Apache Iceberg !
Voici les présentations qui auront lieues :
Comment j’ai rencontré Apache Iceberg ?
Charly clairmont, Synaltic
On est en 2019 ! On est dans un meeting avec Tomer Shiran ! A toutes les questions qui lui sont posées… Il répond que Apache Iceberg va résoudre ce problème !
Il faut avouer que l’on n’y comprenait pas grand-chose en 2019.
Plus tard, en 2020 Owen O’Malley, un des cofondateurs d’Hortonworks rejoint LinkedIn… Et il est l’une des personnes qui commence à le plus promouvoir Apache Iceberg… A cet instant là, j’étais loin d’imaginer que ce format table allait autant transformer le secteur.
Plus sérieusement, l’architecture vous amène à composer une stack : un collecteur avec le client C++ de Kafka, Kafka pour le transport des données, MinIO pour stocker les données, le format table Iceberg, Apache Flink pour la transformation… Et vous voilà en train de pousser des tables avec plus de 1000 colonnes ! Vous bouger la structure des données ! Et vous n’avez aucun souci de schéma… Alors vous vous arrêtez ! Vous repenser à ce que disait Tomer Shiran ! On est 5 ans plus tard !
Apache Iceberg présente une solution ACID et une interopérabilité multi-moteurs exceptionnelle, répondant de manière efficace à de nombreuses problématiques actuelles.
L’avènement du Lac de données ouvertes (FR)
Julien Le Dem, Datadog
Au cours de la dernière décennie, l’écosystème du big data a mûri et évolué, passant d’un melting-pot de projets concurrents à un écosystème composable organisé autour de quelques standards open source.
Les composants des bases de données, distribuées ou non, ont été transformés en produits de base, des pièces individuelles que chacun peut assembler pour créer des moteurs spécifiques à un cas d’utilisation. Définissez vos propres contraintes et, au lieu de tout construire à partir de zéro, vous pouvez tirer parti de ces pièces pour construire un moteur de requête qui résout votre problème. Cela en fait une « Base de Données Déconstruite » que vous pouvez recombiner à volonté.
Il a été incroyable de voir l’adoption de composants clés tels que Parquet, Arrow, Iceberg, Calcite et OpenLineage. Ils fournissent une couche d’interopérabilité qui permet d’utiliser les données à de nombreuses fins sans créer de silos ni de duplication.
Dans cette présentation, je discuterai de l’impact du cloud et de l’avènement du Lac de Données Ouvertes – rendu possible par le projet Iceberg – brisant les silos pour former la base de cet écosystème. Comme le calcul et le stockage peuvent être efficacement découplés, une couche de stockage commune permet un écosystème dynamique d’outils à la demande spécialisés pour des cas d’utilisation spécifiques, évitant ainsi le verrouillage fournisseur.
Je passerai en revue ces composants, comment ils fonctionnent ensemble et, plus important encore, les contrats qui les maintiennent découplés et composables.
Evolution & Future d’Apache Iceberg (FR)
Jean-Baptiste Onofre, Apache Software Foundation, Dremio
L’écosystème du lakehouse connaît une évolution rapide, notamment autour d’Apache Iceberg et du catalogue REST Apache Polaris. La présentation abordera Iceberg en tant que format de table ouvert essentiel, en détaillant comment sa gestion des métadonnées améliore l’évolution des schémas, optimise les performances des requêtes par le filtrage et la planification avancée, et offre une flexibilité accrue dans les stratégies de partitionnement, y compris le partitionnement caché. Les nouvelles fonctionnalités de la spécification Iceberg V3, telles que le support natif JSON, l’amélioration des suppressions positionnelles Parquet, le support géospatial et les transformations multi-colonnes, qui enrichissent ses capacités, seront également présentées.
Ensuite, l’importance des catalogues dans l’écosystème Iceberg sera soulignée, en mettant en évidence la standardisation apportée par la spécification du catalogue REST pour garantir l’interopérabilité entre les moteurs de calcul. Apache Polaris sera présenté comme une implémentation de référence de ce service de catalogue REST, en détaillant ses caractéristiques clés : interopérabilité des moteurs, gouvernance des données via le contrôle d’accès basé sur les rôles (RBAC) unifié, gestion de plusieurs catalogues au sein d’une instance unique et flexibilité de déploiement.
Governing the Lakehouse: Metadata-Driven Control with Apache Iceberg Catalogs (EN)
Viktor Kessler, Vakamo
Apache Iceberg has redefined how data is stored and queried in modern lakehouses by introducing a table format that supports ACID transactions, time travel, and schema evolution. At the heart of this transformation lies the Iceberg Catalog—a critical component that manages table metadata and connects distributed storage systems with compute engines.
Catalogs play a central role in enabling metadata-driven governance, allowing data teams to enforce consistency, traceability, and access control at scale. In this session, we explore how Iceberg’s metadata model empowers key governance capabilities such as auditability, reproducibility, multi-engine interoperability, and simplified lineage tracking.
But while Iceberg provides a solid foundation, essential governance features are still emerging. We’ll examine what’s missing today: fine-grained policy enforcement, unified access control, real-time metadata observability, and first-class support for data contracts. As Iceberg adoption grows, evolving the catalog layer will be key to achieving enterprise-grade governance in open lakehouse architectures.