Dremio carrefour de données dans le cloud, en mode cloud hybride, un article de Charly Clairmont, CTO, Synaltic.
Dremio carrefour de données dans le cloud, en mode cloud hybride
Comme pour les photos numériques, au début l’impression n’était pas le but premier… En prendre un grand nombre, pouvoir les revoir sur différents écrans, et les partager constituaient l’objectif principal… Et finalement, nous aimons bien avoir la photo du petit dernier sur le frigo ou un beau cadre dans le salon avec les plus belles photos de nos dernières vacances en famille nous rappelant la joie que cela nous procure.
Bien entendu il n’est pas question ici de photos ! Mais de données ! Oui l’ensemble des fournisseurs d’infrastructure Cloud font tout pour que nous gardions nos données au sein de leurs data centers grâce à leur services dits “managés”. Nous rappelant à quel point ces services sont bien optimisés pour leurs machines, leurs réseaux que nous ne saurons obtenir un meilleur couple performance / coût ! Et finalement sortir des données d’un fournisseur de cloud coûte cher !
Voilà qu’avec le “Cloud Hybrid” les différents acteurs du marché sortent leurs services managés pour l’infrastructure d’un autre fournisseur de cloud !
Nous y sommes donc !
S’il avait toujours été conseillé de garder les données là où elles sont produites, parce qu’en plus avec le modèle économique des fournisseurs de cloud, sortir la donnée est onéreuse et bien voilà que les fournisseurs de cloud eux mêmes viennent nous montrer que l’on peut construire des applications qui tirent leurs données à la fois d’un fournisseur et puis d’un autre, et encore d’un autre ! Et bien sûr de votre infrastructure en propre.
J’ai bien l’impression que ça me rappelle mon histoire avec les photos…
Après les premières formes de connectivité pour arriver au cloud hybrid ou au multi cloud, les différents acteurs ont sorti leurs solutions Google Anthos, Aure Arc, AWS Outposts ! Et nous pourrions aussi citer les offres d’Oracle, ou IBM qui a une offre transparente et interopérable grâce aux solutions Red Hat !
Plus récemment Google sort BigQuery Omni. Microsoft en se basant sur Arc, Kubernetes et les opérateurs de ses services managés (Azure Service Operator https://github.com/Azure/azure-service-operator) ; ces acteurs viennent nous proposer le cloud hybrid pour la donnée et l’analytique.
Nous sommes ravis que toutes ces solutions existent ! Elles valident le scénario de plateforme Analytics hybrid cloud, multi-cloud, multi-services, multi fournisseurs.
Comment obtenir une vision agrégée ou fédérée des données avec un data lake chez AWS quand l’ERP est hébergé chez Azure, et que le CRM est Salesforce ?
Est-ce qu’il faut rapatrier toutes les données chez AWS ?
Existe-t-il d’autres architectures ?
Est-ce que ces architectures permettent d’accélérer le projet de mise en oeuvre ?
Dremio se place en tant que Data Lake Engine ! Dremio fournit la connectivité vers les différents cloud storage (S3, Azure Block Storage, GCS). Il permet aussi de connecter les data warehouses, et les bases de données opérationnelles.
Dremio possède aussi un format de données ouvert pour accélérer l’interrogation des données. Spécialement conçu pour le cloud, le Cloud Columnar Cache (ou C3) facilite l’interactivité des données et offre aux utilisateurs la capacité d’interroger leurs données dans le cloud comme si elles étaient sur leurs propres poste de travail.
Récemment, Dremio a rendu disponible “Dremio AWS Edition” ! C’est un outil qui facilite le déploiement et l’administration de clusters Dremio ! Sans faire la présentation de l’outil ici, il est tout de même très usuel pour décloisonner et surtout décentraliser votre analytique et embrasser des architectures modernes telle le Data Mesh (ou d’autre parle de Lakehouse) afin d’autonomiser les utilisateurs tout en conservant une gouvernance des données claire et comprise de tous.
Comment est-ce qu’il vous est possible de combiner vos données qui sont dans le cloud chez Azure, AWS, Google, OVH et chez vous ?
Pour vous montrer, nous utilisons Dremio AWS Edition, l’interface est très simple…
- Création de notre cluster Dremio
Et voilà, notre cluster est déjà configuré et en cours de déploiement…
Notre cluster avec ses workers se trouve bientôt disponible (oui les workers ici sont à la demande… optimisation des coûts, si vous ne les utilisez pas, les noeuds sont arrêtés…)
Rapidement nous accédons à l’interface de Dremio et pouvons créer nos connexions, ici, pour procéder à la démonstration nous avons choisi AWS S3 et Azure Storage pour réaliser notre scénario Data Cloud Hybrid !
- Création de la connexion vers S3
- Création de la connexion vers Azure Cloud Storage
Le data lake dans AWS S3 regroupe les données brutes non optimisées sous forme de fichier CSV.
Et de manière similaire, nous avons un autre data lake chez Azure (oui c’est pour la démo ici un fichier)
Et en un rien de temps nous pouvons interroger nos données issues à la fois d’AWS et Azure !
Pour la cohérence de l’interrogation, nous avons choisi des données qui pouvaient être rapprochées et que cela ait un sens.
Nous sommes ravis que Google Cloud ait sorti la solution BigQuery Omni, de même pour les opérateurs de Azure Service Operator pour kubernetes couplé à Azure Arc…
Toutefois, nous aimons la simplicité avec laquelle Dremio rend facile l’accès aux données, et ce où qu’elles soient, les organisant, les sécurisant pour chaque utilisateur et pour l’ensemble des outils d’analytics.
Retour sur un précédent article : https://www.synaltic.fr/blog/decloisonner-les-decisions-grace-a-dremio