Open Data Lakehouse, Simplifier, Gérer, Maîtriser ses données

Open Data Lakehouse, Simplifier, Gérer, Maîtriser ses données, un article rédigé par Charly Clairmont Directeur Général chez Synaltic.

Open Data Lakehouse, Simplifier, Gérer, Maîtriser ses données

Que fait-on de son infrastructure informatique ? Elle est responsable de la gestion des postes de travail et de la collaboration, de la gestion des applications opérationnelles et de l’amélioration du flux des données. Cependant, elle gère surtout les données au sens très large

Vous êtes-vous déjà posé la question de savoir quel est aujourd’hui le cœur de votre système d’information ? En effet, est-ce l’infrastructure réseau ? Car sans elle, il n’y aurait pas de connexion entre tous vos utilisateurs. Ou peut-être est-ce votre ERP, tel que SAP ou Oracle Business ? D’ailleurs, peut-être que votre CRM joue un rôle central dans cette équation ? Et, en tant que logisticien, est-ce votre Warehouse Management System ?

La question n’est pas si simple ! Avez-vous mis en place PRA, PRI, PSSI ?

Toutes ses questions ne sont pas anodines. Ici, je voudrais vous inviter à regarder le système d’information sous un autre angle. Celui des données.

Entrée en matière

L’informatique décisionnelle, que l’on nomme aujourd’hui « Analytics » ou même « Data », devient peu à peu un centre ou un multi-centre vers où la donnée est acheminée. De plus, elle retrouve un souffle pour repartir dans le système. Certains ont nommé ce système de données du data warehouse vers le système opérationnel « Reverse ETL« . Il est important de noter ici qu’il n’a pas été question encore de Master Data Management ou de référentiel. Cependant, il convient de se demander s’il y a une grande différence entre la « Dimension Client » dans le data warehouse et la table de données maître Client du MDM. D’un côté, on est sur une organisation dite en « étoile » ou « satellite« . De l’autre côté, on est sur une 3ème forme normale « classique » qui permet de retenir toutes les clés étrangères des différents logiciels métiers qui alimentent le MDM et qui les réalimentent en retour. Pause ! Est-ce que ça ne vous rappelle pas quelque chose ? N’avons-nous pas déjà vu cela plus haut ? Certains ont appelé cela… Reverse ETL, n’est-ce pas ?

Faisons à nouveau un petit flash back. Depuis, Hadoop a introduit le data lake. Pour sûr, Hadoop apportait un faible coût du stockage, la capacité à y exécuter tout type de traitements. Plus tard, on a compris qu’il fallait détacher stockage et calcul pour une plus grande flexibilité. Il s’agissait surtout de faciliter la mise en œuvre de traitements très divers et très hétérogènes avec les mêmes données ! Ici, c’est exactement cette flexibilité-là que les promoteurs du Cloud Data Warehouse viennent offrir.

Reprenons maintenant notre fil ! La question peut alors prendre une autre forme. Existe-t-il un système avec les fonctionnalités et la simplicité du Data Warehouse et la flexibilité du Data Lake ?

Nous sommes précisément là où je voulais vous amener. Le Data Lakehouse ! Il va un peu plus loin 🙂

Définition

C’est une architecture de gestion des données. Le Data Lakehouse combine la flexibilité, la rentabilité et l’échelle de Data Lake avec la gestion des données et les transactions ACID de Data Warehouse grâce à des formats de table Data Lake (Delta Lake, Apache Iceberg et Apache Hudi) qui facilite autant les traitements de Business Intelligence (BI), de Machine Learning (ML) ou même accueillir les données des processus tant en batch qu’en continu, et ce, sur toutes les données.

Le concept initial a été créé par Databricks dans le document CIDR en 2021.

À data lakehouse, nous préférons. Open Data Lakehouse. Ici, c’est pour bien renforcer l’idée d’un format standardisé que “tout le monde” ou “presque” sait lire. Je veux dire que les données enregistrées dans ce format seront durablement lisibles aussi bien par la solution que vous mettez en place qu’une autre dont le déploiement s’articulera dans 5 ans.

Cette définition est un point de départ à la découverte de l’Open Data Lakehouse.

Après le Data Warehouse, le cloud Data warehouse, le Data Lake, l’Open Data Lakehouse.

Pourquoi le Data Lakehouse ?

Rendre la donnée accessible

Si les lacs de données ont facilité la consolidation des données, ni leur architecture ni les traitements ont été si simples à mettre en œuvre. Cependant, cette complexité a freiné l’adoption jusqu’aux utilisateurs. Le Data Warehouse, quant à lui, facilite cet accès, mais il ne sait pas accueillir toutes les données ! En revanche, avec le data lakehouse, l’utilisateur peut accéder à toutes les données, et ce, en utilisant SQL, le langage d’interrogation des données que beaucoup maîtrisent, y compris vos outils analytiques actuels.

Grâce à une telle accessibilité, on peut viser la responsabilisation des utilisateurs et leur autonomisation. De plus, cette approche permet d’envisager une organisation des données conforme à ce que propose le Data Mesh.

Simplifier l’architecture, réduire les coûts

Le stockage objet est la clé de cette réduction de coûts. En outre, grâce à l’amélioration continue des performances des moteurs de data lakehouse, il est désormais possible d’employer de moins en moins de ressources pour une même quantité de données. De plus, l’architecture est fluide et compréhensible : un moteur sait ingérer et stocker les données vers le stockage d’objets dans un format de données tabulaire. En conséquence, il peut interroger ses données depuis le lac à destination des outils variés.

Augmenter la durabilité des données

Étant donné le caractère des tableaux de formats et leur ouverture, il est assez simple de passer d’un fournisseur à l’autre avec ses mêmes données sans qu’elles subissent une quelconque transformation. De plus, il faut également considérer l’appui de pareils standards afin d’accéder durablement aux données au fil des années. Par ailleurs, les fichiers aux formats CSV et JSON sont bien parce qu’ils restent lisibles. Cependant, ils ne se composent pas toujours de schémas et ne sont pas fortement typés.

Gouvernance des données et observabilité

Dans la mesure où toute la donnée est gérée depuis le lac, d’ailleurs, le moteur du lakehouse sécurise la donnée jusqu’à l’utilisateur. De plus, jusqu’à la donnée elle-même, ce processus garantit une protection complète. Dans la mesure où tous les traitements sont tracés, les organisations peuvent finement structurer, organiser, suivre l’usage des données.

Faciliter le partage de données, et son réemploi

A la fois les formats Table ouverts, à la fois le Data Catalog de tous les jeux de données (Table, Vues) contenu dans le Data Lakehouse participent à la fois à un partages des données en internes au sein des organisations, mais aussi vers l’externe avec soin particulier pour s’assurer que toutes les règles de sécurité (PSSI) ont bien été prises en compte.

Aujourd’hui, le mot Big Data est quasi « désuet ». En effet, on parle désormais de données. De plus, le data lakehouse s’adresse à toutes les organisations. Néanmoins, il est tout de même évident qu’il faudra aussi choisir la bonne solution par rapport à ses besoins. Par conséquent, les data lakehouses éviteront bien des processus ETL. En effet, Fort de toutes les métadonnées, de simples scripts SQL (ici comprenez que des processus ELT) sont mis en œuvre, ce qui est souvent plus accessible au départ pour les organisations.

Par où puis-je commencer ?

Comme toute technologie est nouvelle dans une organisation, il convient de l’apprivoiser. Cela peut être rapide. Cela peut être d’autant plus rapide que vous avez déjà une certaine culture de la donnée (intégration de données, business intelligence, reporting opérationnel… Data Steward, Data Facilitateur).

A Synaltic, nous vous proposons d’aborder ce type de projet via des ateliers de découverte, des mises en situation (preuve technologique) avec vos propres données. Convaincu par l’approche, sa simplicité, sa sécurité, nous vous accompagnons dans la mise en place de la plateforme, son alimentation et la structuration des données.

Vous souhaitez découvrir Dremio ?

Nous pouvons nous déplacer dans vos locaux Parisien ou organiser une session à distance via Google Meet ou Zoom. Comptez une heure de présentation pour faire un tour complet des fonctionnalités.