Ce site stocke des cookies sur votre ordinateur. Nous les utilisons afin de personnaliser votre expérience de navigation ainsi que pour des analyses d'audience.
La fréquentation du salon Big Data Paris en septembre 2022 (12.000 participants en physique, 4.000 à distance) nous montre l’intérêt des organisations pour la mise en place de plateformes de données. Data Mesh faisait partie de toutes les conversations. Data Mesh est une approche organisationnelle dans le cadre de la gestion et la gouvernance des données permettant de simplifier la collaboration et le self-service. Nous avons sélectionnés 3 vidéos mettant en lumière l’intérêt de Dremio dans cette nouvelle approche.
BIC : du datawarehouse à la BI self-service : notre trajectoire vers la Data Mesh
Yassine TRAD est Lead Data Architecte depuis 2019 pour le groupe BIC. “Pour faire bref, on va parler ici de 26 millions de produits vendus chaque jour dans le monde. On imagine le volume de donnée et l’importance d’être à jour ! Comment consolider nos données et offrir aux utilisateurs la possibilité de bénéficier d’un haut niveau de reporting réactif sur le monde entier ? Comment combiner les données du référentiel aux données locales ?” L’architecture Data Mesh répond à ces problématiques ! Dans cette vidéo de 26 minutes, Yassine revient sur la transformation que BIC a du opérer et l’intérêt “Data Mesh ready” de Dremio.
source : https://vimeo.com/756298169
CIH BANK : comment une architecture Data Mesh facilite une organisation orientée data
Badr Lemkhenke est Chief Strategy, Customer & Data Officer pour CIH BANK depuis 2017. CIH BANK est la banque centrale du Maroc depuis 100 ans et ces besoins en analyse et reporting de données ne cessent de grandir. Outre les problématiques techniques, Badr revient, dans cette vidéo de 34 mn, sur les difficultés liées aux ressources humaines et la nécessité d’une bonne gouvernance. En conclusion (32:50) , Badr indique que “Dremio nous a permis d’économiser 2 ans dans notre maturité et notre progression Data”.
source : https://vimeo.com/756374164
MICHELIN : des data lakes à la Data Mesh
Joris NURIT, Head of data transformation et Karim HSINI, Architect Data et Analytics pour le groupe MICHELIN, nous raconte le chemin que l’on parcours pour faire en sorte de simplifier l’accès à la donnée au sein du groupe Il s’agit d’une véritable histoire de 24 mn : on y aborde les défis techniques ainsi que les différents rôles des acteurs de la donnée, et enfin l’importance de la gouvernance.
source: https://vimeo.com/755616475 Pour en savoir plus sur l’aventure MICHELIN: https://blogit.michelin.io/creating-and-defining-a-data-driven-culture/
Pour aller plus loin, organiser une démo de la solution DREMIO !
Indiquez-nous vos coordonnées professionnelles et nous vous contacterons rapidement.
Dans cet article, nous explorons commentDremio permet aux analystes et aux scientifiques des données d’analyser directement des données dans S3 avec des réponses très “interactives”, sans avoir à copier physiquement les données dans d’autres systèmes ou à créer des extraits, des cubes et/ou des tables d’agrégation.
Drémio est un AWS Advanced Technology Partner qui fournit une plate-forme d’analyse pour des cas d’usage de type décisionnelle et de science des données.
Tomer Shiran, Chief Product Officer & Co-Founder chez Dremio
Shashi Raina, Partner Solution Architect chez AWS
L’évolutivité infinie, le faible coût, la haute disponibilité (99,99 % de disponibilité et 99,999999999 % de durabilité) et la facilitéAmazon Simple Storage Service (Amazon S3) en a fait le système de stockage premier dans de nombreuses organisations.
Grâce à la séparation du stockage, des données et du calcul, les lacs de données cloud sont beaucoup plus évolutifs et rentables que les entrepôts de données. Cependant, ils n’ont pas historiquement répondu aux besoins des analystes métiers.
Bien que de nombreux moteurs SQL permettent aux outils de Business Intelligence (BI) d’interroger les données Amazon S3, les entreprises sont confrontées à de multiples défis, notamment une latence élevée et des coûts d’infrastructure.
Comment Dremio fournit des interrogations SQL sur Amazon S3 et des réponses interactives
L’architecture unique de Dremio permet des performances de requête plus rapides et plus fiables que les moteurs SQL traditionnels tels que Presto et Apache Hive grâce à un certain nombre d’innovations technologiques.
Le tableau suivant présente certaines des principales différences architecturales entre Dremio et les moteurs de requête traditionnels.
Dremio
Autres moteurs SQL
Architecture du moteur
multiples (via des moteurs élastiques)
Moteur unique
Orientation des données en mémoire
Colonne (via Apache Arrow)
Orienté Ligne
Noyau d’exécution
Natif (via Gandiva)
span style= »font-weight: 400; »>Java
Amazon S3
Accélérée (via Columnar Cloud Cache)
normale
Accélération Requête
Oui (via des réflexions de données)
Non
Interfaces client
ODBC, JDBC et Arrow Flight
ODBC et JDBC uniquement
Moteurs élastiques
Dremio est un système élastique et distribué permettant aux utilisateurs BI et aux data scientists d’interroger directement Amazon S3. Pour utiliser Dremio, lancez simplement le Dremio Cloud et démarrez un nouveau projet ou ouvrez-en un existant.
Le coordinateur Dremio crée et gère automatiquement des machinesAmazon Elastic Compute Cloud (Amazon EC2) servant d’exécuteurs. Les exécuteurs sont organisés en moteurs qui peuvent démarrer et s’arrêter indépendamment en fonction de la charge de travail.
figure 1 montre un exemple de compte AWS avec deux déploiements Dremio.
Cet exemple se compose de deux clusters distincts (déploiements). Chaque cluster est associé à un projet donné représentant l’état du système. Dans cet exemple, il y a deux projets actifs (taxi-prod et taxi-test) et un projet (taxi-dev) qui n’est pas utilisé actuellement.
L’architecture multimoteur de Dremio offre de nombreux avantages par rapport aux architectures traditionnelles à moteur unique :
les coûts d’infrastructure cloud sont réduits de 60 % ou plus (sur la base de l’analyse de plusieurs charges de travail) car les moteurs peuvent être adaptés aux traitements et s’arrêter automatiquement lorsqu’ils ne sont pas utilisés.
Le processeur, la mémoire et les ressources de mise en cache d’une charge de travail n’ont pas d’incidence sur une autre charge de travail, ce qui permet de respecter les SLA de performances des requêtes.
Les charges de travail urgentes mais gourmandes en ressources (tâches nocturnes ou actualisations des réflexions, par exemple) peuvent être provisionnées avec la quantité appropriée de ressources pour être exécutées à temps, mais restent rentables en ne s’exécutant que lorsque cela est nécessaire.
Il est facile et peu coûteux d’expérimenter différentes capacités. Par exemple, il ne faut que quelques minutes et quelques clics de souris pour voir comment une large requête se comportera sur un moteur xlarge ou un moteur de taille personnalisée avec 20 instances c5d.18xlarge.
Les coûts d’infrastructure peuvent être alloués aux équipes en exécutant leurs charges de travail sur des moteurs distincts, ce qui permet aux organisations de suivre et de mesurer l’utilisation.
Pour afficher les moteurs élastiques définis dans un cluster, sélectionnez “Elastic Engine” dans la Admin .
figure 2 – Affichage des moteurs élastiques définis dans un cluster.
Apache Arrow, Gandiva et Flight
Dremio a créé un projet open source appeléApache Arrow pour fournir une représentation des données en mémoire en colonnes standard. Arrow est actuellement téléchargé plus de 10 millions de fois par mois et est utilisé par de nombreuses technologies open source et commerciales.
Dremio est basé sur Arrow en interne. Toutes les données, dès qu’elles sont lues à partir du disque (sur les fichiers Parquet, par exemple), sont représentées en mémoire au format Arrow en colonnes.
Toutes les projections et tous les filtres de Dremio sont exécutés par du code natif généré parGandiva, un compilateur open source basé sur LLVM qui traduit les expressions SQL en noyaux d’exécution vectorisés.
figure 3 – Toutes les projections et filtres Dremio sont exécutés en code Gandiva.
Pour les cas d’utilisation dans lesquels de gros volumes de données doivent être renvoyés au client (pour remplir un tableau de données (data frame) Python, par exemple), Dremio expose une interface Arrow Flight qui est 10 à 100 fois plus rapide qu’ODBC et JDBC.
Les clients compatibles avec Arrow Flight, comme Python et R, peuvent utiliser les résultats de requête directement à partir du moteur Dremio. Étant donné que le moteur Dremio représente les données en interne sous forme de tampons Arrow, il renvoie simplement les tampons finaux à l’application cliente sans aucune sérialisation ou désérialisation ligne par ligne des données.
Columnar Cloud Cache
Les lacs de données cloud séparent les ressources de calcul des données. Les données sont stockées dans des formats ouverts (Apache Parquet, Apache Arrow, Apache Iceberg) dans Amazon S3 où elles sont accessibles par une variété de services et de technologies.
Ceci est différent des lacs de données Hadoop sur site, où le calcul et les données étaient colocalisés, et des entrepôts de données cloud, où les données sont propriétaires et ne peuvent être traitées que par un seul moteur.
La fonctionnalité de cache cloud en colonne de Dremio tire parti du stockage NVMe éphémère sur les instances Amazon EC2 pour mettre en cache les données au fur et à mesure qu’elles sont lues à partir de S3. Grâce au cache cloud en colonne, les utilisateurs peuvent profiter de l’évolutivité et du faible coût de S3, ainsi que des hautes performances de NVMe local.
figure 4 – Cache cloud colonne Dremio.
Réflexions de données
Même avec Apache Arrow et le cache cloud en colonne, si l’ensemble de données est volumineux ou si la requête est complexe, il peut être impossible d’obtenir un temps de réponse interactif si la table complète doit être analysée et la requête complexe doit être traitée à partir de zéro.
Dremio fournit une solution à ces situations appeléeLes réflexions de données, qui sont des structures de données optimisées qui peuvent accélérer l’exécution des interrogations. Les réflexions de données sont généralement utilisées pour matérialiser certains traitements courants qui se produisent dans le cadre d’une charge de travail plus large.
Par exemple, si une charge de travail se compose de nombreuses requêtes sur une jointure entre les jeux de données A et B, il peut être judicieux de matérialiser la jointure avec une réflexion de données. De même, si les utilisateurs de Tableau ou de Power BI vont interagir avec l’ensemble de données C, il peut être judicieux de matérialiser une pré-agrégation de cet ensemble de données avec une réflexion des données.
Notez qu’une seule réflexion peut accélérer les requêtes sur de nombreux jeux de données virtuels différents.
La figure 5 montre l’interface de base pour créer une réflexion d’agrégation unique sur un jeu de données physique ou virtuel dans Dremio.
figure 5 – Interface pour créer une réflexion d’agrégation unique dans Dremio.
Pour plus de souplesse, un administrateur peut utiliser le mode avancé (ou la ligne de commande).
figure 6 – Utilisation du mode avancé pour les réflexions d’agrégation.
Étant donné que les réflexions de données sont entièrement transparentes pour les utilisateurs qui interrogent les données, il n’est pas nécessaire de créer des réflexions de données à l’avance. Au lieu de cela, ils peuvent être créés au fil du temps pour répondre à des situations spécifiques dans lesquelles des performances supplémentaires sont nécessaires.
Cela contraste fortement avec les approches traditionnelles de l’accélération OLAP (cubes et tables d’agrégation, par exemple) dans lesquelles l’application (telle qu’un outil de BI) doit se connecter à un cube ou une table d’agrégation spécifique, et toute modification est très coûteuse et perturbatrice.
Gestion des ensembles de données dans Dremio
Dans Dremio, vous pouvez gérer des ensembles de données physiques et des ensembles de données virtuels.
Tables de lac de données (ensembles de données physiques)
Dremio prend en charge plusieurs représentations/catalogues d’ensembles de données sur Amazon S3 :
Fichiers et dossiers − Dremio permet aux utilisateurs de traiter un fichier ou un dossier comme un ensemble de données. Le dossier est promu en jeu de données en sélectionnant un bouton dans l’interface utilisateur ou automatiquement en l’interrogeant. Une fois qu’il est considéré comme un ensemble de données, il est accessible via n’importe quelle application cliente telle que Tableau ou Power BI.
Hive Metastore − Dremio prend en charge Hive Metastore (2.x et 3.x). Si les utilisateurs ont déjà un Hive Metastore dans leur organisation, ils peuvent simplement ajouter une source Hive Metastore dans Dremio, et ils peuvent interroger ces tables.
AWS Glue − Prise en charge de DremioAWS Glue, un catalogue sans serveur principalement compatible avec Hive Metastore. Si vous avez utilisé des services de données AWS commeFormation du lac AWS ouAmazon Athena, vous avez probablement déjà un catalogue AWS Glue en place.
En plus de ces catalogues, Dremio prend en charge les formats de tables transactionnelles, notamment Apache Iceberg et Delta Lake.
La couche sémantique (ensembles de données virtuels)
Bien que les analystes de données aient besoin d’accéder à des ensembles de données régis et organisés, cela ne suffit pas. Invariablement, ils doivent également pouvoir dériver leurs propres ensembles de données à partir de ces ensembles de données de base. Cela conduit à quelques défis.
Tout d’abord, de nombreuses copies/permutations différentes sont créées (soit toutes dans le lac, soit dans plusieurs magasins de données). Il devient rapidement impossible de garder ces ensembles de données synchronisés les uns avec les autres.
De nombreux modèles/vues différents sont créés pour différentes analyses, tableaux de bord et applications.
L’étalement des données et des vues aboutit finalement à des résultats et des conclusions incohérents. La couche sémantique Dremio, constituée d’un ensemble bien organiséensembles de données virtuels , étayé par des ensembles de données physiques et des réflexions de données, permet aux ingénieurs de données et aux consommateurs de données de surmonter ces défis.
figure 7 montre la vue de niveau supérieur de la couche sémantique dans Dremio. Les jeux de données virtuels sont organisés en espaces ainsi qu’en sous-dossiers au sein de ces espaces.
figure 7 – Vue de haut niveau de la couche sémantique dans Dremio.
La couche sémantique offre de nombreux avantages, notamment :
Une logique métier et des KPI cohérents pour tous les utilisateurs et applications clientes, telles que Tableau, Power BI, Jupyter Notebooks et même des applications personnalisées.
Travail moins réactif et fastidieux pour accompagner les consommateurs de données. Une couche sémantique permet également à l’équipe de données de fournir rapidement de nouveaux ensembles de données virtuels aux consommateurs de données qui n’ont pas les connaissances ou l’accès pour les créer de manière indépendante.
Sécurité et gouvernance centralisées des données à l’aide d’ensembles de données virtuels pour fournir différentes vues des données à différents utilisateurs et groupes. Par exemple, les scientifiques des données à temps plein peuvent être autorisés à voir les numéros de carte de crédit, mais les stagiaires ne doivent voir que les quatre derniers chiffres.
De « zéro à requête » en 5 minutes
Lancement de Dremio Cloud pour AWS
Déployez Dremio avec votre compte AWS est simple. Dremio vous fournit un assistant pour faciliter la mise en place de Dremio Cloud; vous pourrez suivre les instructions pas à pas de l’assistant et faire référence à la documentation Dremio pour lancer le coordinateur et créer votre premier projet.Ce processus ne prend que quelques minutes.
Étape 1 – Paramétrage VPC depuis la console AWS
En Amont depuis votre compte AWS assurez vous d’avoir un VPC pouvant accueillir votre Data Lakehouse Dremio
Vous êtes maintenant prêt à lancer l’assistant de Dremio Cloud pour vous créer votre cluster Dremio.
Étape 2 : Saisir le formulaire d’inscription
Étape 3 : Saisir une organisation
Vous êtes maintenant prêt à démarrer
Étape 4 : Ajouter un projet Sonar
Étape 5 : Lancez un modèle de stack Cloudformation de Dremio
Une fois connecter à votre compte AWS, saisissez un nom pour votre stack
Étape 6 : Choisissez votre VPC et les sous-réseaux
Etape 8 : En quelques minutes, le statut de la pile devrait passer de CREATE_IN_PROGRESS à CREATE_COMPLETE.
Étape 9 : Choisissez maintenant la liste des projets Sonar
Étape 10 : Sélectionnez le projet que vous venez juste de créer
Étape 11 : Ouvrez votre projet vous voilà prêt à vous lancez dans les analyses
Interrogez 1 milliard de trajets en taxi à New York en moins d’une seconde
Une fois que vous avez lancé Dremio, vous pouvez commencer à utiliser Dremio immédiatement. Toutefois, si vous n’êtes pas familier avec Dremio, nous vous encourageons à faire appel à Synaltic afin que nous puissions vous proposer une démarche adaptée pour découvrir pleinement et efficacement Dremio.
Conclusion
Dremio permet aux analystes et aux scientifiques des données d’analyser les données dans Amazon S3 directement avec des temps de réponse interactive, sans avoir à copier physiquement les données dans d’autres systèmes ou à créer des extraits, des cubes et/ou des tables d’agrégation.
Vous disposez de nombreuses ressources sur notre site web pour découvrir Dremio par vous même. Vous pouvez néanmoins faire appel à Synaltic.