Ce site stocke des cookies sur votre ordinateur. Nous les utilisons afin d'améliorer et de personnaliser votre expérience de navigation ainsi que pour des analyses d'audience. Pour en savoir plus sur les cookies que nous utilisons, consultez notre politique de confidentialité. Sans votre acceptation, seules les données anonymisées nous sont disponibles. Aussi, merci d'accepter tous les cookies :)
Analyse ultra-rapide avec Tableau Online et Dremio, traduit et adapté du site de l’éditeur.
Analyse ultra-rapide avec Tableau Online et Dremio
Guide de configuration de Tableau Online Bridge avec Dremio
Aperçu
Tableau Bridge est un moyen de connecter votre instance Tableau Online à vos données. La connexion à des sources de données en ligne à l’aide de Tableau Online est facile, vous pouvez vous connecter à la fois aux données en direct et extraites en fonction de votre environnement.
Mais que se passe-t-il si vos sources de données changent constamment ?
Vous ne voudriez pas avoir à publier et re-publier vos classeurs chaque fois qu’un changement se produit au niveau du jeu de données. Il peut également y avoir des cas où la sécurité empêche l’accès aux sources de données internes (sur l’infrastructure on premise). Ce qui peut aussi être le cas pour Dremio. Avec Tableau Bridge, il est facile de créer une connexion sécurisée entre Tableau Online et vos ensembles de données internes, y compris Dremio.
Dans ce didacticiel, vous allez être guidé à travers les étapes :
Pour configurer de Tableau Online avec Tableau Bridge
Pour créer une connexion en direct à Dremio depuis Tableau Online
Besoin de se rafraîchir la mémoire sur Dremio ? Synaltic, partenaire officiel de la solution vous accompagne dans la découverte de cet outil !
Un cluster Dremio en cours d’exécution, consultez ladocumentation pour plus de détails sur la façon de déployer Dremio sur votre environnement. Synaltic peut aussi vous aider dans cette démarche
Un système pour l’exécution de Tableau Bridge (doit être activé 24h / 24 et 7j / 7 pour les requêtes en direct)
Téléchargez lespilotes ODBC Dremio pour l’environnement sur lequel vous allez travailler.
Téléchargez et installezTableau Bridge sur la machine dédiée à l’exécution du pont.
Installez Tableau Bridge sur la machine qui exécutera le pont. Le pont doit être disponible 24h / 24 et 7j / 7 pour l’utilisateur qui interagit avec Tableau de bord sur Tableau Online, sinon les requêtes échoueront.
Ouvrez le pont et ajoutez une connexion à Tableau Online
Maintenant sur votre navigateur, accédez à online.tableau.com et ouvrez le menu des paramètres en bas à gauche.
Sélectionnez l’option Pont en haut
Cochez l’option : Enable Tableau Bridge clients to maintain live connections to on-premises data puis cliquez sur Enregistrer.
Dans la section État du client, définissez le nouveau pont sur Extract and Live, puis cliquez sur Enregistrer.
Configurer un tableau de bord et publier
Maintenant que tout est prêt, amusons-nous !
Tout d’abord, accédez à votre interface utilisateur Dremio et créez un jeu de données virtuel (VDS). Pour ce tutoriel, j’ai créé un VDS «Employé» qui est le résultat d’une jointure de deux ensembles de données différents provenant de PostgreSQL et SQL Server.
Nous pouvons vérifier la lignée de ces données dans l’entrée Graph.
Maintenant, créons un classeur dans Tableau à l’aide de l’ensemble de données résultant. Pour une explication détaillée de ce qui est sur le point de se passer, consultez notre didacticielVisualiser votre premier ensemble de données avec Tableau .
Tout d’abord, créez le fichier TDS pour l’ensemble de données que nous voulons visualiser, faites-le en cliquant sur l’ellipse à côté de l’icône de la disquette, puis sélectionnez Tableau dans le menu déroulant.
Ouvrez le fichier TDS et, lorsque vous y êtes invité, saisissez les mêmes informations d’identification que vous avez utilisées pour vous connecter à l’interface utilisateur Dremio.
Créer et enregistrer le classeur.
Ensuite, dans Tableau à partir du menu Serveur, vérifiez que vous êtes connecté, sinon connectez-vous au serveur à l’aide de vos informations d’identification Tableau Online, puis sélectionnez Publier le classeur.
Laissez tous les paramètres par défaut et cliquez sur Publier.
Une fois le classeur publié correctement, vous recevrez la notification suivante (cliquez sur Terminé)
Testez votre connexion en direct Tableau Online
Vous pouvez utiliser deux méthodes pour vérifier que Tableau envoie des requêtes à Dremio et non à un extrait sur le serveur.
Première méthode : ouvrez votre classeur et sélectionnez Modifier le classeur.
Apportez ensuite des modifications à votre classeur, puis explorez l’entrée Jobs dans l’interface utilisateur de Dremio.
Seconde méthode : à partir de Tableau Online, sélectionnez Sources de données et vérifiez que la source de données indique Live
Il est tout à fait possible que la connexion dise “Extraire”, ce qui signifie que les requêtes ne sont pas envoyées à Dremio.
Pour résoudre ce problème, sélectionnez simplement les points de suspension sur le jeu de données et cliquez sur Modifier la connexion.
Ensuite, fournissez vos informations d’identification et informations sur le serveur et cliquez sur Enregistrer.
Comme le montre l’exemple ci-dessus, il est très simple de travailler avec vos classeurs Tableau sur Tableau Online tout en vous assurant qu’il existe une connexion en direct à Dremio. J’espère que vous avez apprécié ce didacticiel, visitez labibliothèque de didacticiels de Dremio pour lire d’autres didacticiels comme celui-ci. Ainsi, découvrez comment Dremio, le moteur de lac de données, peut vous aider à obtenir des informations plus rapidement à partir de vos données.
Après un court passage par une startup dans les années 2000, Charly fonde Altic qui est ensuite devenue Synaltic. Passionné par l'urbanisation des systèmes d’information, l'innovation, la donnée, il a toujours défendu le logiciel libre et l'open source.
Dans cet article, nous explorons commentDremio permet aux analystes et aux scientifiques des données d’analyser directement des données dans S3 avec des réponses très “interactives”, sans avoir à copier physiquement les données dans d’autres systèmes ou à créer des extraits, des cubes et/ou des tables d’agrégation.
Drémio est un AWS Advanced Technology Partner qui fournit une plate-forme d’analyse pour des cas d’usage de type décisionnelle et de science des données.
Tomer Shiran, Chief Product Officer & Co-Founder chez Dremio
Shashi Raina, Partner Solution Architect chez AWS
L’évolutivité infinie, le faible coût, la haute disponibilité (99,99 % de disponibilité et 99,999999999 % de durabilité) et la facilitéAmazon Simple Storage Service (Amazon S3) en a fait le système de stockage premier dans de nombreuses organisations.
Grâce à la séparation du stockage, des données et du calcul, les lacs de données cloud sont beaucoup plus évolutifs et rentables que les entrepôts de données. Cependant, ils n’ont pas historiquement répondu aux besoins des analystes métiers.
Bien que de nombreux moteurs SQL permettent aux outils de Business Intelligence (BI) d’interroger les données Amazon S3, les entreprises sont confrontées à de multiples défis, notamment une latence élevée et des coûts d’infrastructure.
Comment Dremio fournit des interrogations SQL sur Amazon S3 et des réponses interactives
L’architecture unique de Dremio permet des performances de requête plus rapides et plus fiables que les moteurs SQL traditionnels tels que Presto et Apache Hive grâce à un certain nombre d’innovations technologiques.
Le tableau suivant présente certaines des principales différences architecturales entre Dremio et les moteurs de requête traditionnels.
Dremio
Autres moteurs SQL
Architecture du moteur
multiples (via des moteurs élastiques)
Moteur unique
Orientation des données en mémoire
Colonne (via Apache Arrow)
Orienté Ligne
Noyau d’exécution
Natif (via Gandiva)
span style= »font-weight: 400; »>Java
Amazon S3
Accélérée (via Columnar Cloud Cache)
normale
Accélération Requête
Oui (via des réflexions de données)
Non
Interfaces client
ODBC, JDBC et Arrow Flight
ODBC et JDBC uniquement
Moteurs élastiques
Dremio est un système élastique et distribué permettant aux utilisateurs BI et aux data scientists d’interroger directement Amazon S3. Pour utiliser Dremio, lancez simplement le Dremio Cloud et démarrez un nouveau projet ou ouvrez-en un existant.
Le coordinateur Dremio crée et gère automatiquement des machinesAmazon Elastic Compute Cloud (Amazon EC2) servant d’exécuteurs. Les exécuteurs sont organisés en moteurs qui peuvent démarrer et s’arrêter indépendamment en fonction de la charge de travail.
figure 1 montre un exemple de compte AWS avec deux déploiements Dremio.
Cet exemple se compose de deux clusters distincts (déploiements). Chaque cluster est associé à un projet donné représentant l’état du système. Dans cet exemple, il y a deux projets actifs (taxi-prod et taxi-test) et un projet (taxi-dev) qui n’est pas utilisé actuellement.
L’architecture multimoteur de Dremio offre de nombreux avantages par rapport aux architectures traditionnelles à moteur unique :
les coûts d’infrastructure cloud sont réduits de 60 % ou plus (sur la base de l’analyse de plusieurs charges de travail) car les moteurs peuvent être adaptés aux traitements et s’arrêter automatiquement lorsqu’ils ne sont pas utilisés.
Le processeur, la mémoire et les ressources de mise en cache d’une charge de travail n’ont pas d’incidence sur une autre charge de travail, ce qui permet de respecter les SLA de performances des requêtes.
Les charges de travail urgentes mais gourmandes en ressources (tâches nocturnes ou actualisations des réflexions, par exemple) peuvent être provisionnées avec la quantité appropriée de ressources pour être exécutées à temps, mais restent rentables en ne s’exécutant que lorsque cela est nécessaire.
Il est facile et peu coûteux d’expérimenter différentes capacités. Par exemple, il ne faut que quelques minutes et quelques clics de souris pour voir comment une large requête se comportera sur un moteur xlarge ou un moteur de taille personnalisée avec 20 instances c5d.18xlarge.
Les coûts d’infrastructure peuvent être alloués aux équipes en exécutant leurs charges de travail sur des moteurs distincts, ce qui permet aux organisations de suivre et de mesurer l’utilisation.
Pour afficher les moteurs élastiques définis dans un cluster, sélectionnez “Elastic Engine” dans la Admin .
figure 2 – Affichage des moteurs élastiques définis dans un cluster.
Apache Arrow, Gandiva et Flight
Dremio a créé un projet open source appeléApache Arrow pour fournir une représentation des données en mémoire en colonnes standard. Arrow est actuellement téléchargé plus de 10 millions de fois par mois et est utilisé par de nombreuses technologies open source et commerciales.
Dremio est basé sur Arrow en interne. Toutes les données, dès qu’elles sont lues à partir du disque (sur les fichiers Parquet, par exemple), sont représentées en mémoire au format Arrow en colonnes.
Toutes les projections et tous les filtres de Dremio sont exécutés par du code natif généré parGandiva, un compilateur open source basé sur LLVM qui traduit les expressions SQL en noyaux d’exécution vectorisés.
figure 3 – Toutes les projections et filtres Dremio sont exécutés en code Gandiva.
Pour les cas d’utilisation dans lesquels de gros volumes de données doivent être renvoyés au client (pour remplir un tableau de données (data frame) Python, par exemple), Dremio expose une interface Arrow Flight qui est 10 à 100 fois plus rapide qu’ODBC et JDBC.
Les clients compatibles avec Arrow Flight, comme Python et R, peuvent utiliser les résultats de requête directement à partir du moteur Dremio. Étant donné que le moteur Dremio représente les données en interne sous forme de tampons Arrow, il renvoie simplement les tampons finaux à l’application cliente sans aucune sérialisation ou désérialisation ligne par ligne des données.
Columnar Cloud Cache
Les lacs de données cloud séparent les ressources de calcul des données. Les données sont stockées dans des formats ouverts (Apache Parquet, Apache Arrow, Apache Iceberg) dans Amazon S3 où elles sont accessibles par une variété de services et de technologies.
Ceci est différent des lacs de données Hadoop sur site, où le calcul et les données étaient colocalisés, et des entrepôts de données cloud, où les données sont propriétaires et ne peuvent être traitées que par un seul moteur.
La fonctionnalité de cache cloud en colonne de Dremio tire parti du stockage NVMe éphémère sur les instances Amazon EC2 pour mettre en cache les données au fur et à mesure qu’elles sont lues à partir de S3. Grâce au cache cloud en colonne, les utilisateurs peuvent profiter de l’évolutivité et du faible coût de S3, ainsi que des hautes performances de NVMe local.
figure 4 – Cache cloud colonne Dremio.
Réflexions de données
Même avec Apache Arrow et le cache cloud en colonne, si l’ensemble de données est volumineux ou si la requête est complexe, il peut être impossible d’obtenir un temps de réponse interactif si la table complète doit être analysée et la requête complexe doit être traitée à partir de zéro.
Dremio fournit une solution à ces situations appeléeLes réflexions de données, qui sont des structures de données optimisées qui peuvent accélérer l’exécution des interrogations. Les réflexions de données sont généralement utilisées pour matérialiser certains traitements courants qui se produisent dans le cadre d’une charge de travail plus large.
Par exemple, si une charge de travail se compose de nombreuses requêtes sur une jointure entre les jeux de données A et B, il peut être judicieux de matérialiser la jointure avec une réflexion de données. De même, si les utilisateurs de Tableau ou de Power BI vont interagir avec l’ensemble de données C, il peut être judicieux de matérialiser une pré-agrégation de cet ensemble de données avec une réflexion des données.
Notez qu’une seule réflexion peut accélérer les requêtes sur de nombreux jeux de données virtuels différents.
La figure 5 montre l’interface de base pour créer une réflexion d’agrégation unique sur un jeu de données physique ou virtuel dans Dremio.
figure 5 – Interface pour créer une réflexion d’agrégation unique dans Dremio.
Pour plus de souplesse, un administrateur peut utiliser le mode avancé (ou la ligne de commande).
figure 6 – Utilisation du mode avancé pour les réflexions d’agrégation.
Étant donné que les réflexions de données sont entièrement transparentes pour les utilisateurs qui interrogent les données, il n’est pas nécessaire de créer des réflexions de données à l’avance. Au lieu de cela, ils peuvent être créés au fil du temps pour répondre à des situations spécifiques dans lesquelles des performances supplémentaires sont nécessaires.
Cela contraste fortement avec les approches traditionnelles de l’accélération OLAP (cubes et tables d’agrégation, par exemple) dans lesquelles l’application (telle qu’un outil de BI) doit se connecter à un cube ou une table d’agrégation spécifique, et toute modification est très coûteuse et perturbatrice.
Gestion des ensembles de données dans Dremio
Dans Dremio, vous pouvez gérer des ensembles de données physiques et des ensembles de données virtuels.
Tables de lac de données (ensembles de données physiques)
Dremio prend en charge plusieurs représentations/catalogues d’ensembles de données sur Amazon S3 :
Fichiers et dossiers − Dremio permet aux utilisateurs de traiter un fichier ou un dossier comme un ensemble de données. Le dossier est promu en jeu de données en sélectionnant un bouton dans l’interface utilisateur ou automatiquement en l’interrogeant. Une fois qu’il est considéré comme un ensemble de données, il est accessible via n’importe quelle application cliente telle que Tableau ou Power BI.
Hive Metastore − Dremio prend en charge Hive Metastore (2.x et 3.x). Si les utilisateurs ont déjà un Hive Metastore dans leur organisation, ils peuvent simplement ajouter une source Hive Metastore dans Dremio, et ils peuvent interroger ces tables.
AWS Glue − Prise en charge de DremioAWS Glue, un catalogue sans serveur principalement compatible avec Hive Metastore. Si vous avez utilisé des services de données AWS commeFormation du lac AWS ouAmazon Athena, vous avez probablement déjà un catalogue AWS Glue en place.
En plus de ces catalogues, Dremio prend en charge les formats de tables transactionnelles, notamment Apache Iceberg et Delta Lake.
La couche sémantique (ensembles de données virtuels)
Bien que les analystes de données aient besoin d’accéder à des ensembles de données régis et organisés, cela ne suffit pas. Invariablement, ils doivent également pouvoir dériver leurs propres ensembles de données à partir de ces ensembles de données de base. Cela conduit à quelques défis.
Tout d’abord, de nombreuses copies/permutations différentes sont créées (soit toutes dans le lac, soit dans plusieurs magasins de données). Il devient rapidement impossible de garder ces ensembles de données synchronisés les uns avec les autres.
De nombreux modèles/vues différents sont créés pour différentes analyses, tableaux de bord et applications.
L’étalement des données et des vues aboutit finalement à des résultats et des conclusions incohérents. La couche sémantique Dremio, constituée d’un ensemble bien organiséensembles de données virtuels , étayé par des ensembles de données physiques et des réflexions de données, permet aux ingénieurs de données et aux consommateurs de données de surmonter ces défis.
figure 7 montre la vue de niveau supérieur de la couche sémantique dans Dremio. Les jeux de données virtuels sont organisés en espaces ainsi qu’en sous-dossiers au sein de ces espaces.
figure 7 – Vue de haut niveau de la couche sémantique dans Dremio.
La couche sémantique offre de nombreux avantages, notamment :
Une logique métier et des KPI cohérents pour tous les utilisateurs et applications clientes, telles que Tableau, Power BI, Jupyter Notebooks et même des applications personnalisées.
Travail moins réactif et fastidieux pour accompagner les consommateurs de données. Une couche sémantique permet également à l’équipe de données de fournir rapidement de nouveaux ensembles de données virtuels aux consommateurs de données qui n’ont pas les connaissances ou l’accès pour les créer de manière indépendante.
Sécurité et gouvernance centralisées des données à l’aide d’ensembles de données virtuels pour fournir différentes vues des données à différents utilisateurs et groupes. Par exemple, les scientifiques des données à temps plein peuvent être autorisés à voir les numéros de carte de crédit, mais les stagiaires ne doivent voir que les quatre derniers chiffres.
De « zéro à requête » en 5 minutes
Lancement de Dremio Cloud pour AWS
Déployez Dremio avec votre compte AWS est simple. Dremio vous fournit un assistant pour faciliter la mise en place de Dremio Cloud; vous pourrez suivre les instructions pas à pas de l’assistant et faire référence à la documentation Dremio pour lancer le coordinateur et créer votre premier projet.Ce processus ne prend que quelques minutes.
Étape 1 – Paramétrage VPC depuis la console AWS
En Amont depuis votre compte AWS assurez vous d’avoir un VPC pouvant accueillir votre Data Lakehouse Dremio
Vous êtes maintenant prêt à lancer l’assistant de Dremio Cloud pour vous créer votre cluster Dremio.
Étape 2 : Saisir le formulaire d’inscription
Étape 3 : Saisir une organisation
Vous êtes maintenant prêt à démarrer
Étape 4 : Ajouter un projet Sonar
Étape 5 : Lancez un modèle de stack Cloudformation de Dremio
Une fois connecter à votre compte AWS, saisissez un nom pour votre stack
Étape 6 : Choisissez votre VPC et les sous-réseaux
Etape 8 : En quelques minutes, le statut de la pile devrait passer de CREATE_IN_PROGRESS à CREATE_COMPLETE.
Étape 9 : Choisissez maintenant la liste des projets Sonar
Étape 10 : Sélectionnez le projet que vous venez juste de créer
Étape 11 : Ouvrez votre projet vous voilà prêt à vous lancez dans les analyses
Interrogez 1 milliard de trajets en taxi à New York en moins d’une seconde
Une fois que vous avez lancé Dremio, vous pouvez commencer à utiliser Dremio immédiatement. Toutefois, si vous n’êtes pas familier avec Dremio, nous vous encourageons à faire appel à Synaltic afin que nous puissions vous proposer une démarche adaptée pour découvrir pleinement et efficacement Dremio.
Conclusion
Dremio permet aux analystes et aux scientifiques des données d’analyser les données dans Amazon S3 directement avec des temps de réponse interactive, sans avoir à copier physiquement les données dans d’autres systèmes ou à créer des extraits, des cubes et/ou des tables d’agrégation.
Vous disposez de nombreuses ressources sur notre site web pour découvrir Dremio par vous même. Vous pouvez néanmoins faire appel à Synaltic.
CIH BANK : comment une architecture Data Mesh facilite une organisation orientée data
Badr Lemkhenke est Chief Strategy, Customer & Data Officer pour CIH BANK depuis 2017. CIH BANK est la banque centrale du Maroc depuis 100 ans et ces besoins en analyse et reporting de données ne cessent de grandir. Outre les problématiques techniques, Badr revient, dans cette vidéo de 34 mn, sur les difficultés liées aux ressources humaines et la nécessité d’une bonne gouvernance. En conclusion (32:50) , Badr indique que “Dremio nous a permis d’économiser 2 ans dans notre maturité et notre progression Data”.
source : https://vimeo.com/756374164
MICHELIN : des data lakes à la Data Mesh
Joris NURIT, Head of data transformation et Karim HSINI, Architect Data et Analytics pour le groupe MICHELIN, nous raconte le chemin que l’on parcours pour faire en sorte de simplifier l’accès à la donnée au sein du groupe Il s’agit d’une véritable histoire de 24 mn : on y aborde les défis techniques ainsi que les différents rôles des acteurs de la donnée, et enfin l’importance de la gouvernance.
source: https://vimeo.com/755616475 Pour en savoir plus sur l’aventure MICHELIN: https://blogit.michelin.io/creating-and-defining-a-data-driven-culture/
Pour aller plus loin, organiser une démo de la solution DREMIO !
Indiquez-nous vos coordonnées professionnelles et nous vous contacterons rapidement.
[…] Analyse ultra rapide avec Tableau Online et Dremio […]