Ce site stocke des cookies sur votre ordinateur. Nous les utilisons afin de personnaliser votre expérience de navigation ainsi que pour des analyses d'audience.
Dremio, une nouvelle page s’ouvre ;un article rédigé par Charly Clairmont, CTO, Synaltic
Dremio, une nouvelle page s’ouvre
Voilà plus de 2 ans que Dremio s’attache à expliquer l’importance d’Apache Iceberg, ce format de données Table. Aujourd’hui, le fournisseur de Data Lakehouse évolue avec un nouveau moteur de requête SQL et un métastore de données pour les lacs de données. Ils s’appuient sur le format de table Apache Iceberg.
La conférence Subsurface Winter 2022 qui se tient le 2 et 3 Mars, organisée par Dremio est riche en intervenants réunis autour des thématiques data lake, gouvernance des données, format de données ouvertes, architecture moderne pour la gestion de données.
Pour cette première journée, la conférence a été le lieu de l’annonce et du lancement du moteur de requête Sonar (GA) et du nouveau service de gestion des métadonnées Arctic (Preview) pour la plate-forme cloud data lakehouse.
Il est à rappeler que Dremio est en train d’offrir une vision complètement renouvelée de la gestion des données. Il a depuis peu démontré cette capacité à fusionner data warehouse et data lake. L’annonce de l’évolution de l’architecture va comme rendre la donnée “fluide”.
« Facile à démarrer »
Dremio Sonar est un service gratuit conçu pour SQL qui offre toutes les performances et fonctionnalités d’un entrepôt de données sur le stockage d’objets Amazon S3. (les autres stockages distribués sont dans les cartons). Basé sur le moteur d’analyse en mémoire en colonne Apache Arrow, Dremio Sonar est 68 % plus rapide que son prédécesseur ; prend en charge les insertions, les mises à jour, les suppressions et les transactions ; ou « toutes les opérations que vous pouvez effectuer dans une requête d’entrepôt de données », a déclaré Tomer Shiran. En effet, cela permet aux utilisateurs d’exécuter des charges de travail de Business Intelligence directement sur le Lakehouse.
Comme Git pour les données : une donnée fluide !
Dremio Arctic est un autre service gratuit basé sur le format de table d’analyse open source Apache Iceberg et le catalogue de données Nessie ; qui offre une expérience de type Git pour le data lakehouse. Git est un système de contrôle de version distribué open source apprécié pour ses capacités d’instantané.
Tomer Shiran, dans son discours, a également présenté publiquement Dremio Arctic, qu’il a décrit comme un métastore intelligent pour Apache Iceberg.
Le métastore Dremio Arctic simplifie donc l’ingénierie et l’analyse des données. Il rend l’expérience de travail avec des workflows de données similaire à celle du code source en développement informatique. Cela inclut la création de branches pour l’ingestion de données ; la transformation et l’expérimentation de manière isolée ; la possibilité de reproduire des tableaux de bord historiques ou des modèles d’apprentissage automatique sans conserver de copies de données et une interface de type GitHub.
Tomer Shiran a expliqué qu’Arctic fonctionnera avec d’autres moteurs de requête de lac de données, notammentApache Spark , Trinoet Presto , et pas seulement Dremio Sonar.
L’objectif de Dremio est donc de créer un metastore moderne pour les déploiements de data lakehouse.
Construire le lac de données pour remplacer les entrepôts de données
Doug Henschen, un VP analyste de Constellation, a noté que Dremio était un innovateur dans le domaine des lacs de données cloud depuis l’introduction d’Apache Arrow en 2016. Il a plus récemment déclaré qu’il considérait la nouvelle fonctionnalité que Dremio a dévoilée aujourd’hui. Elle est destinée aux professionnels de la BI et de l’analyse.
Par exemple, il a noté que Dremio améliore sa plate-forme avec des fonctionnalités supplémentaires de mise à jour (sql update) ; de suppression de données (sql delete). Ces derniers remplissent la capacité de manipulation complète au niveau des enregistrements. C’est ce les professionnels des données attendent d’une plate-forme de type entrepôt de données.
Avec le Data Lakehouse, plutôt que d’apporter des données dans un moteur de requête ; les utilisateurs amènent les moteurs de requête aux données ; un concept introduit avec Hadoop. Ainsi, les données stockées dans le stockage d’objets cloud, comme Amazon S3, peuvent être interrogées par différentes technologies et les utilisateurs n’ont pas à déplacer et à copier les données dans un entrepôt de données pour les utiliser.
Toutes les informations que nous relayons au sujet de Dremio depuis quelques années maintenant n’ont pas vocation à promouvoir Dremio uniquement pour les grandes organisations. Toutes ces fonctionnalités d’accès aux données et ici désormais d’analyse de données pour tous sont bien accessibles depuis la petite PME jusqu’à la très grande organisation. C’est en effet la force de l’open source et ce qui fait aussi de Dremio une solution très versatile.
Pour apprendre à utiliser Dremio, vous pouvez suivre une formation Dremio avec nos experts certifiés !
Découvrez comment nous accompagnons Le Point dans le déploiement de son Data Hub ; plate-forme de centralisation de données comme point d’accès unique à la donnée. Nous travaillons avec les équipes de l’hebdomadaire ; de la conception des maquettes des tableaux jusqu’à leur déploiement et leur maintenance. La retranscription de toutes les étapes de ces 3 années de projets ; qui aura permis à Le Point de disposer de données agrégées et rapidement interrogeables.
Après un court passage par une startup dans les années 2000, Charly fonde Altic qui est ensuite devenue Synaltic. Passionné par l'urbanisation des systèmes d’information, l'innovation, la donnée, il a toujours défendu le logiciel libre et l'open source.
Dans cet article, nous explorons commentDremio permet aux analystes et aux scientifiques des données d’analyser directement des données dans S3 avec des réponses très “interactives”, sans avoir à copier physiquement les données dans d’autres systèmes ou à créer des extraits, des cubes et/ou des tables d’agrégation.
Drémio est un AWS Advanced Technology Partner qui fournit une plate-forme d’analyse pour des cas d’usage de type décisionnelle et de science des données.
Tomer Shiran, Chief Product Officer & Co-Founder chez Dremio
Shashi Raina, Partner Solution Architect chez AWS
L’évolutivité infinie, le faible coût, la haute disponibilité (99,99 % de disponibilité et 99,999999999 % de durabilité) et la facilitéAmazon Simple Storage Service (Amazon S3) en a fait le système de stockage premier dans de nombreuses organisations.
Grâce à la séparation du stockage, des données et du calcul, les lacs de données cloud sont beaucoup plus évolutifs et rentables que les entrepôts de données. Cependant, ils n’ont pas historiquement répondu aux besoins des analystes métiers.
Bien que de nombreux moteurs SQL permettent aux outils de Business Intelligence (BI) d’interroger les données Amazon S3, les entreprises sont confrontées à de multiples défis, notamment une latence élevée et des coûts d’infrastructure.
Comment Dremio fournit des interrogations SQL sur Amazon S3 et des réponses interactives
L’architecture unique de Dremio permet des performances de requête plus rapides et plus fiables que les moteurs SQL traditionnels tels que Presto et Apache Hive grâce à un certain nombre d’innovations technologiques.
Le tableau suivant présente certaines des principales différences architecturales entre Dremio et les moteurs de requête traditionnels.
Dremio
Autres moteurs SQL
Architecture du moteur
multiples (via des moteurs élastiques)
Moteur unique
Orientation des données en mémoire
Colonne (via Apache Arrow)
Orienté Ligne
Noyau d’exécution
Natif (via Gandiva)
span style= »font-weight: 400; »>Java
Amazon S3
Accélérée (via Columnar Cloud Cache)
normale
Accélération Requête
Oui (via des réflexions de données)
Non
Interfaces client
ODBC, JDBC et Arrow Flight
ODBC et JDBC uniquement
Moteurs élastiques
Dremio est un système élastique et distribué permettant aux utilisateurs BI et aux data scientists d’interroger directement Amazon S3. Pour utiliser Dremio, lancez simplement le Dremio Cloud et démarrez un nouveau projet ou ouvrez-en un existant.
Le coordinateur Dremio crée et gère automatiquement des machinesAmazon Elastic Compute Cloud (Amazon EC2) servant d’exécuteurs. Les exécuteurs sont organisés en moteurs qui peuvent démarrer et s’arrêter indépendamment en fonction de la charge de travail.
figure 1 montre un exemple de compte AWS avec deux déploiements Dremio.
Cet exemple se compose de deux clusters distincts (déploiements). Chaque cluster est associé à un projet donné représentant l’état du système. Dans cet exemple, il y a deux projets actifs (taxi-prod et taxi-test) et un projet (taxi-dev) qui n’est pas utilisé actuellement.
L’architecture multimoteur de Dremio offre de nombreux avantages par rapport aux architectures traditionnelles à moteur unique :
les coûts d’infrastructure cloud sont réduits de 60 % ou plus (sur la base de l’analyse de plusieurs charges de travail) car les moteurs peuvent être adaptés aux traitements et s’arrêter automatiquement lorsqu’ils ne sont pas utilisés.
Le processeur, la mémoire et les ressources de mise en cache d’une charge de travail n’ont pas d’incidence sur une autre charge de travail, ce qui permet de respecter les SLA de performances des requêtes.
Les charges de travail urgentes mais gourmandes en ressources (tâches nocturnes ou actualisations des réflexions, par exemple) peuvent être provisionnées avec la quantité appropriée de ressources pour être exécutées à temps, mais restent rentables en ne s’exécutant que lorsque cela est nécessaire.
Il est facile et peu coûteux d’expérimenter différentes capacités. Par exemple, il ne faut que quelques minutes et quelques clics de souris pour voir comment une large requête se comportera sur un moteur xlarge ou un moteur de taille personnalisée avec 20 instances c5d.18xlarge.
Les coûts d’infrastructure peuvent être alloués aux équipes en exécutant leurs charges de travail sur des moteurs distincts, ce qui permet aux organisations de suivre et de mesurer l’utilisation.
Pour afficher les moteurs élastiques définis dans un cluster, sélectionnez “Elastic Engine” dans la Admin .
figure 2 – Affichage des moteurs élastiques définis dans un cluster.
Apache Arrow, Gandiva et Flight
Dremio a créé un projet open source appeléApache Arrow pour fournir une représentation des données en mémoire en colonnes standard. Arrow est actuellement téléchargé plus de 10 millions de fois par mois et est utilisé par de nombreuses technologies open source et commerciales.
Dremio est basé sur Arrow en interne. Toutes les données, dès qu’elles sont lues à partir du disque (sur les fichiers Parquet, par exemple), sont représentées en mémoire au format Arrow en colonnes.
Toutes les projections et tous les filtres de Dremio sont exécutés par du code natif généré parGandiva, un compilateur open source basé sur LLVM qui traduit les expressions SQL en noyaux d’exécution vectorisés.
figure 3 – Toutes les projections et filtres Dremio sont exécutés en code Gandiva.
Pour les cas d’utilisation dans lesquels de gros volumes de données doivent être renvoyés au client (pour remplir un tableau de données (data frame) Python, par exemple), Dremio expose une interface Arrow Flight qui est 10 à 100 fois plus rapide qu’ODBC et JDBC.
Les clients compatibles avec Arrow Flight, comme Python et R, peuvent utiliser les résultats de requête directement à partir du moteur Dremio. Étant donné que le moteur Dremio représente les données en interne sous forme de tampons Arrow, il renvoie simplement les tampons finaux à l’application cliente sans aucune sérialisation ou désérialisation ligne par ligne des données.
Columnar Cloud Cache
Les lacs de données cloud séparent les ressources de calcul des données. Les données sont stockées dans des formats ouverts (Apache Parquet, Apache Arrow, Apache Iceberg) dans Amazon S3 où elles sont accessibles par une variété de services et de technologies.
Ceci est différent des lacs de données Hadoop sur site, où le calcul et les données étaient colocalisés, et des entrepôts de données cloud, où les données sont propriétaires et ne peuvent être traitées que par un seul moteur.
La fonctionnalité de cache cloud en colonne de Dremio tire parti du stockage NVMe éphémère sur les instances Amazon EC2 pour mettre en cache les données au fur et à mesure qu’elles sont lues à partir de S3. Grâce au cache cloud en colonne, les utilisateurs peuvent profiter de l’évolutivité et du faible coût de S3, ainsi que des hautes performances de NVMe local.
figure 4 – Cache cloud colonne Dremio.
Réflexions de données
Même avec Apache Arrow et le cache cloud en colonne, si l’ensemble de données est volumineux ou si la requête est complexe, il peut être impossible d’obtenir un temps de réponse interactif si la table complète doit être analysée et la requête complexe doit être traitée à partir de zéro.
Dremio fournit une solution à ces situations appeléeLes réflexions de données, qui sont des structures de données optimisées qui peuvent accélérer l’exécution des interrogations. Les réflexions de données sont généralement utilisées pour matérialiser certains traitements courants qui se produisent dans le cadre d’une charge de travail plus large.
Par exemple, si une charge de travail se compose de nombreuses requêtes sur une jointure entre les jeux de données A et B, il peut être judicieux de matérialiser la jointure avec une réflexion de données. De même, si les utilisateurs de Tableau ou de Power BI vont interagir avec l’ensemble de données C, il peut être judicieux de matérialiser une pré-agrégation de cet ensemble de données avec une réflexion des données.
Notez qu’une seule réflexion peut accélérer les requêtes sur de nombreux jeux de données virtuels différents.
La figure 5 montre l’interface de base pour créer une réflexion d’agrégation unique sur un jeu de données physique ou virtuel dans Dremio.
figure 5 – Interface pour créer une réflexion d’agrégation unique dans Dremio.
Pour plus de souplesse, un administrateur peut utiliser le mode avancé (ou la ligne de commande).
figure 6 – Utilisation du mode avancé pour les réflexions d’agrégation.
Étant donné que les réflexions de données sont entièrement transparentes pour les utilisateurs qui interrogent les données, il n’est pas nécessaire de créer des réflexions de données à l’avance. Au lieu de cela, ils peuvent être créés au fil du temps pour répondre à des situations spécifiques dans lesquelles des performances supplémentaires sont nécessaires.
Cela contraste fortement avec les approches traditionnelles de l’accélération OLAP (cubes et tables d’agrégation, par exemple) dans lesquelles l’application (telle qu’un outil de BI) doit se connecter à un cube ou une table d’agrégation spécifique, et toute modification est très coûteuse et perturbatrice.
Gestion des ensembles de données dans Dremio
Dans Dremio, vous pouvez gérer des ensembles de données physiques et des ensembles de données virtuels.
Tables de lac de données (ensembles de données physiques)
Dremio prend en charge plusieurs représentations/catalogues d’ensembles de données sur Amazon S3 :
Fichiers et dossiers − Dremio permet aux utilisateurs de traiter un fichier ou un dossier comme un ensemble de données. Le dossier est promu en jeu de données en sélectionnant un bouton dans l’interface utilisateur ou automatiquement en l’interrogeant. Une fois qu’il est considéré comme un ensemble de données, il est accessible via n’importe quelle application cliente telle que Tableau ou Power BI.
Hive Metastore − Dremio prend en charge Hive Metastore (2.x et 3.x). Si les utilisateurs ont déjà un Hive Metastore dans leur organisation, ils peuvent simplement ajouter une source Hive Metastore dans Dremio, et ils peuvent interroger ces tables.
AWS Glue − Prise en charge de DremioAWS Glue, un catalogue sans serveur principalement compatible avec Hive Metastore. Si vous avez utilisé des services de données AWS commeFormation du lac AWS ouAmazon Athena, vous avez probablement déjà un catalogue AWS Glue en place.
En plus de ces catalogues, Dremio prend en charge les formats de tables transactionnelles, notamment Apache Iceberg et Delta Lake.
La couche sémantique (ensembles de données virtuels)
Bien que les analystes de données aient besoin d’accéder à des ensembles de données régis et organisés, cela ne suffit pas. Invariablement, ils doivent également pouvoir dériver leurs propres ensembles de données à partir de ces ensembles de données de base. Cela conduit à quelques défis.
Tout d’abord, de nombreuses copies/permutations différentes sont créées (soit toutes dans le lac, soit dans plusieurs magasins de données). Il devient rapidement impossible de garder ces ensembles de données synchronisés les uns avec les autres.
De nombreux modèles/vues différents sont créés pour différentes analyses, tableaux de bord et applications.
L’étalement des données et des vues aboutit finalement à des résultats et des conclusions incohérents. La couche sémantique Dremio, constituée d’un ensemble bien organiséensembles de données virtuels , étayé par des ensembles de données physiques et des réflexions de données, permet aux ingénieurs de données et aux consommateurs de données de surmonter ces défis.
figure 7 montre la vue de niveau supérieur de la couche sémantique dans Dremio. Les jeux de données virtuels sont organisés en espaces ainsi qu’en sous-dossiers au sein de ces espaces.
figure 7 – Vue de haut niveau de la couche sémantique dans Dremio.
La couche sémantique offre de nombreux avantages, notamment :
Une logique métier et des KPI cohérents pour tous les utilisateurs et applications clientes, telles que Tableau, Power BI, Jupyter Notebooks et même des applications personnalisées.
Travail moins réactif et fastidieux pour accompagner les consommateurs de données. Une couche sémantique permet également à l’équipe de données de fournir rapidement de nouveaux ensembles de données virtuels aux consommateurs de données qui n’ont pas les connaissances ou l’accès pour les créer de manière indépendante.
Sécurité et gouvernance centralisées des données à l’aide d’ensembles de données virtuels pour fournir différentes vues des données à différents utilisateurs et groupes. Par exemple, les scientifiques des données à temps plein peuvent être autorisés à voir les numéros de carte de crédit, mais les stagiaires ne doivent voir que les quatre derniers chiffres.
De « zéro à requête » en 5 minutes
Lancement de Dremio Cloud pour AWS
Déployez Dremio avec votre compte AWS est simple. Dremio vous fournit un assistant pour faciliter la mise en place de Dremio Cloud; vous pourrez suivre les instructions pas à pas de l’assistant et faire référence à la documentation Dremio pour lancer le coordinateur et créer votre premier projet.Ce processus ne prend que quelques minutes.
Étape 1 – Paramétrage VPC depuis la console AWS
En Amont depuis votre compte AWS assurez vous d’avoir un VPC pouvant accueillir votre Data Lakehouse Dremio
Vous êtes maintenant prêt à lancer l’assistant de Dremio Cloud pour vous créer votre cluster Dremio.
Étape 2 : Saisir le formulaire d’inscription
Étape 3 : Saisir une organisation
Vous êtes maintenant prêt à démarrer
Étape 4 : Ajouter un projet Sonar
Étape 5 : Lancez un modèle de stack Cloudformation de Dremio
Une fois connecter à votre compte AWS, saisissez un nom pour votre stack
Étape 6 : Choisissez votre VPC et les sous-réseaux
Etape 8 : En quelques minutes, le statut de la pile devrait passer de CREATE_IN_PROGRESS à CREATE_COMPLETE.
Étape 9 : Choisissez maintenant la liste des projets Sonar
Étape 10 : Sélectionnez le projet que vous venez juste de créer
Étape 11 : Ouvrez votre projet vous voilà prêt à vous lancez dans les analyses
Interrogez 1 milliard de trajets en taxi à New York en moins d’une seconde
Une fois que vous avez lancé Dremio, vous pouvez commencer à utiliser Dremio immédiatement. Toutefois, si vous n’êtes pas familier avec Dremio, nous vous encourageons à faire appel à Synaltic afin que nous puissions vous proposer une démarche adaptée pour découvrir pleinement et efficacement Dremio.
Conclusion
Dremio permet aux analystes et aux scientifiques des données d’analyser les données dans Amazon S3 directement avec des temps de réponse interactive, sans avoir à copier physiquement les données dans d’autres systèmes ou à créer des extraits, des cubes et/ou des tables d’agrégation.
Vous disposez de nombreuses ressources sur notre site web pour découvrir Dremio par vous même. Vous pouvez néanmoins faire appel à Synaltic.
CIH BANK : comment une architecture Data Mesh facilite une organisation orientée data
Badr Lemkhenke est Chief Strategy, Customer & Data Officer pour CIH BANK depuis 2017. CIH BANK est la banque centrale du Maroc depuis 100 ans et ces besoins en analyse et reporting de données ne cessent de grandir. Outre les problématiques techniques, Badr revient, dans cette vidéo de 34 mn, sur les difficultés liées aux ressources humaines et la nécessité d’une bonne gouvernance. En conclusion (32:50) , Badr indique que “Dremio nous a permis d’économiser 2 ans dans notre maturité et notre progression Data”.
source : https://vimeo.com/756374164
MICHELIN : des data lakes à la Data Mesh
Joris NURIT, Head of data transformation et Karim HSINI, Architect Data et Analytics pour le groupe MICHELIN, nous raconte le chemin que l’on parcours pour faire en sorte de simplifier l’accès à la donnée au sein du groupe Il s’agit d’une véritable histoire de 24 mn : on y aborde les défis techniques ainsi que les différents rôles des acteurs de la donnée, et enfin l’importance de la gouvernance.
source: https://vimeo.com/755616475 Pour en savoir plus sur l’aventure MICHELIN: https://blogit.michelin.io/creating-and-defining-a-data-driven-culture/
Pour aller plus loin, organiser une démo de la solution DREMIO !
Indiquez-nous vos coordonnées professionnelles et nous vous contacterons rapidement.