Traduction libre du billet “What’s New in Apache Iceberg 1.11.0” publié par Alex Merced de Dremio en mai 2026.
Un tournant architectural pour le Lakehouse moderne
La version 1.11.0 d’Apache Iceberg™ n’est pas une simple mise à jour de maintenance : elle marque une évolution majeure du format de table open source qui structure aujourd’hui les architectures Lakehouse. Deux avancées convergent :
- une refonte profonde de la gestion des formats de fichiers ;
- la maturité de la spécification V3, désormais prête pour la production.
Si vous attendiez la stabilisation des deletion vectors, du type Variant, du support géospatial natif ou des timestamps nanosecondes, cette version est celle du passage à l’échelle !
File Format API : un changement de paradigme
Avant 1.11.0, chaque format (Parquet, ORC…) nécessitait une intégration spécifique dans le moteur Iceberg. Cette approche « branchée » limitait l’ajout de nouveaux formats conçus pour les workloads IA ou GPU.
La File Format API introduit un modèle plugin : tout format conforme à l’interface peut être lu ou écrit sans modifier le cœur du moteur.
➡️ Résultat : stabilité accrue, maintenance simplifiée et ouverture à des formats émergents comme Vortex, Lance ou Nimble, chacun optimisé pour des cas d’usage analytiques, vectoriels ou d’entraînement ML.
Deletion Vectors : la fin de l’accumulation des fichiers de suppression
En V2, chaque opération DELETE générait un fichier de suppression distinct, ralentissant les requêtes au fil du temps.
La V3 introduit les deletion vectors, des bitmaps Roaring stockés dans le format Puffin :
- un fichier de données ↔ un fichier de suppression ;
- plus de centaines de petits fichiers à ouvrir ;
- conformité RGPD simplifiée : suppression logique sans réécriture massive.
Variant Type : la donnée semi‑structurée sans pénalité de performance
Stocker du JSON en chaîne de caractères empêchait toute optimisation de requête.
Le type Variant encode les données semi‑structurées en binaire, permettant le predicate pushdown : filtrer directement sur des champs internes (variant['region'] = 'US‑West') sans scan complet.
Les shredded variants vont plus loin : les champs les plus consultés (ex. event_type, user_id) sont extraits en colonnes typées pour des performances maximales.
Types géospatiaux : GEOMETRY et GEOGRAPHY natifs
Fini les colonnes WKT/WKB : Iceberg 1.11.0 introduit des types géospatiaux natifs.
- GEOMETRY : données planaires (cartes, zones locales).
- GEOGRAPHY : données sphériques (distances globales).
Les moteurs Spark, Flink et Trino intègrent progressivement ces types pour des requêtes spatiales précises et compatibles.
Timestamps nanosecondes : la précision pour les workloads haute fréquence
Les timestamps microsecondes ne suffisent plus pour le trading, l’IoT ou la recherche scientifique.
Iceberg 1.11.0 ajoute timestamp_ns et timestamptz_ns, offrant une résolution à la nanoseconde sans perte de sémantique temporelle.
Support : Flink 2.1+, Spark 4.1+ (en cours d’intégration).
Mises à jour moteur
| Moteur | Nouveautés clés |
|---|---|
| Spark 4.1+ | Écriture des shredded variants pour les champs fréquemment lus. |
| Flink 2.1+ | Support des timestamps nanosecondes et meilleure gestion des deletion vectors en streaming. |
| Trino | Mapping du type JSON vers Variant et ajout progressif du support géospatial. |
Migration vers le format V3
Toutes ces fonctionnalités nécessitent le format V3 :
ALTER TABLE catalog.schema.table
SET TBLPROPERTIES ('format-version' = '3');
Cette commande ne réécrit pas les fichiers existants ; elle met simplement à jour les métadonnées.
⚠️ Vérifiez la compatibilité V3 de vos connecteurs avant migration.
Conclusion
Apache Iceberg™ 1.11.0 consolide sa position de socle du Lakehouse souverain :
- une architecture extensible grâce à la File Format API ;
- des fonctionnalités V3 désormais stables et prêtes pour la production ;
- une gouvernance des données plus fine, adaptée aux exigences européennes de performance et de conformité.


Sections commentaires non disponible.