Comment nous avons transformé notre chaos de métadonnées en catalogue unifié en quelques heures
🎯 Le Défi : Quand les Données Deviennent Invisibles
Imaginez : votre organisation dispose de téraoctets de données éparpillées dans le système d’information. Heureusement vous avez Dremio et il fédère vos données. Malheureusement vos équipes passent quand même 60% de leur temps à chercher plutôt qu’à analyser. « Cette table existe-t-elle encore ? », « Qui l’a créée ? », « Quand a-t-elle été mise à jour pour la dernière fois ? » – autant de questions quotidiennes qui ralentissent l’innovation et la prise de décision.
C’est exactement le défi que nous avons relevé : connecter notre lac de données Dremio à OpenMetadata pour créer un catalogue unifié et intelligent de nos actifs data.
💡 Pourquoi OpenMetadata + Dremio ?
Pour les Décideurs 📊
- ROI immédiat : Réduction de 60% du temps de recherche de données
- Conformité renforcée : Traçabilité complète des données sensibles
- Réduction des risques : Élimination des « données fantômes » non documentées
- Accélération de l’innovation : Les équipes passent plus de temps à créer de la valeur
Pour les Data Engineers 🔧
- Vision 360° : Mapping automatique des schémas et dépendances
- Détection proactive : Alertes sur les changements de structure
- Documentation vivante : Métadonnées mises à jour automatiquement
- Gouvernance simplifiée : Gestion centralisée des accès et qualité
Pour les Data Analysts 📈
- Découverte intuitive : Interface web pour explorer les données disponibles
- Contexte enrichi : Descriptions, propriétaires, historiques des modifications
- Collaboration facilitée : Partage de connaissances entre équipes
- Qualité garantie : Indicateurs de fiabilité et de fraîcheur des données
🚀 L’Aventure Technique : De l’Obstacle à la Solution
Chapitre 1 : Le Mur des Versions
Notre première surprise : une incompatibilité majeure entre les versions.
Server version is 1.10.3 vs. Client version 1.9.14.1Le problème : Dremio utilise un connecteur communautaire (TIKI-Institut) qui n’était pas à jour avec la dernière version d’OpenMetadata.
Notre solution : Une approche Docker innovante avec installation par étapes, forçant la mise à jour tout en préservant la compatibilité du connecteur.
Chapitre 2 : La Bataille des Permissions
Deuxième acte : nos premières tentatives échouent avec un 403 Forbidden.
La révélation : OpenMetadata distingue rigoureusement les utilisateurs des bots d’ingestion. Utiliser un token utilisateur standard pour l’ingestion automatisée est voué à l’échec.
La solution : Création d’un bot dédié avec les rôles Admin, Ingestion, Lineage, Profiler, et Quality. Un détail technique qui change tout. Il convient surtout d’accorder les bons droits.
Depuis Paramètres > Agents Numériques > Ajouter un agent Numérique vous pouvez créer votre jeton. Et vous pouvez y associé des rôles.

Chapitre 3 : L’Art de la Configuration
Le format YAML du connecteur Dremio diffère subtilement des standards OpenMetadata :
source:
  type: custom  # Pas "CustomDatabase" !
  serviceName: dremio-production
  sourceConfig:
    config:
      type: DatabaseMetadataLeçon apprise : Chaque connecteur a ses spécificités. La documentation officielle ne suffit pas toujours.
📊 Le Résultat : Plus qu’un Catalogue, un Écosystème
Un travail payant mais qui ne s’arrête jamais
L’ingestion des métadonnées est très rapide. Dans notre exemple en moins d’une minute toutes les méta-informations avaient été collectées et organisées dans OpenMetadata. Bien sûr, c’est ici que tout le travail commence. Vous devez enrichir ce catalogue qui renseignera toutes les descriptions de vos tables, de vos vues, de vos colonnes.
Une pratique que nous avons observée consiste instaurer une boucle d’amélioration continue pour nourrir tant OpenMetadata que vos systèmes de données y sont connectés.

L’Impact Métier Immédiat
Avant : « Je cherche des données sur les patients hospitalisés… »
- 2 heures de recherche dans différents systèmes
- 5 emails pour identifier le bon contact
- Doutes sur la fraîcheur des données
Après : Recherche « patients » dans OpenMetadata
- 30 secondes pour identifier les bonnes tables
- Métadonnées complètes : propriétaire, dernière mise à jour, qualité
- Lineage automatique pour comprendre les transformations
OpenMetada dispose aussi d’un gestionnaire de « Data Contract » pour chacune de vos tables. Cela va se révéler très pratique pour accompagner les utilisateurs à s’exprimer sans rien oublier de leur attentes et contraintes sur chacune des tables, vues et les règles de validations des données sur les différentes colonnes.

🛠️ Architecture : Simple mais Robuste
Notre solution repose sur trois piliers :
1. Connecteur Communautaire TIKI-Institut
- Spécialement conçu pour Dremio
- Support Arrow Flight natif
- Compatible avec les nouvelles versions OpenMetadata
2. Orchestration Kubernetes
- Jobs d’ingestion automatisés
- Monitoring intégré
- Scalabilité et résilience
3. Interface OpenMetadata
- Catalogue searchable et navigable
- APIs pour intégrations futures
- Gouvernance des données intégrée
🎓 Nos Apprentissages Clés
Pour les Décideurs
- Investir dans les métadonnées rapporte : Le temps économisé se chiffre en semaines par équipe
- Choisir l’écosystème : OpenMetadata + connecteurs communautaires = agilité maximum
- Penser gouvernance dès le départ : Les permissions et rôles sont cruciaux
Pour les Équipes Techniques
- Versions first : Toujours vérifier la compatibilité avant de commencer
- Bots dédiés : Jamais de tokens utilisateurs pour l’automatisation
- Documentation vivante : Chaque déploiement doit être reproductible
Pour les Data Teams
- Adoption progressive : Commencer par un périmètre restreint et étendre
- Formation utilisateurs : La meilleure technologie reste inutile sans adoption
- Feedback loops : Améliorer continuellement based sur les retours terrain
🔮 Et Maintenant ?
Notre aventure Dremio → OpenMetadata n’est qu’un début. Nous planifions déjà :
- Extension multi-sources : PostgreSQL, Elastic, APIs métier
- Intelligence augmentée : Suggestions automatiques de datasets pertinents, documentation générée
- Data Quality : Monitoring proactif et alertes qualité
- Self-service analytics : Permettre aux métiers de découvrir et analyser en autonomie
💭 Le Mot de la Fin
Connecter Dremio à OpenMetadata, c’est bien plus qu’un projet technique. C’est démocratiser l’accès aux données et transformer la façon dont nous travaillons avec l’information.
En quelques heures d’implémentation, nous avons créé les fondations d’une organisation véritablement data-driven. Nos analystes trouvent leurs données en secondes, nos engineers comprennent l’impact de leurs modifications, et nos décideurs ont enfin une vision claire de nos actifs data. Ils savent d’une part rechercher les données et d’autre part les interroger. Et bien entendu, croiser aisément toutes ces données grâce à la fédération de données de Dremio.
La technologie n’est qu’un moyen. L’objectif, c’est libérer le potentiel de vos équipes.
Prêt à transformer votre gestion des métadonnées ? Notre retour d’expérience et notre stack technique sont disponibles en open source. N’hésitez pas à nous contacter pour échanger sur votre contexte spécifique.

 
                    
