John Bontit, data analyst dans la #SynalTeam, a eu l’occasion de travailler pour la première fois avec Dremio lors d’un POC chez l’un de nos clients. Il partage aujourd’hui son expérience dans cet article !
Découvrir une nouvelle technologie, c’est cool, à l’image d’un enfant qui, le lendemain de Noël, découvre le cadeau qui lui a été déposé par le “fameux” Père Noël. Imaginez le plaisir et la curiosité ressentis par cet enfant… Et bien, j’ai eu les mêmes sentiments en découvrant une nouvelle techno ! Surtout lorsque cette technologie s’avère d’une part, être simple d’utilisation et d’autre part, permette d’interagir facilement avec nos outils habituels.
C’est l’histoire de ma nouvelle amitié avec Dremio, une plateforme open source qui me permet aujourd’hui d’améliorer mon niveau de SQL tout en restant au taquet de mes outils habituellement utilisés. Cet article est donc un retour d’expérience sur mon utilisation de la plateforme Dremio pendant trois semaines dans le cadre d’un POC.
Qui suis-je et comment ai-je connu Dremio ?
Data analyst junior, les deux technologies que j’utilise quotidiennement dans le cadre de mon travail sont R (Data analyse) et Tableau (Dataviz); j’ai donc un profil orienté analyste plutôt qu’ingénieur de la donnée. Vous comprendrez ainsi que j’ai un niveau intermédiaire en SQL. Mais depuis que je fais du Dremio, faire du SQL à un niveau plus avancé semble de plus en plus facile, cela seulement en moins d’un mois.
J’ai connu Dremio par l’intermédiaire de Charly Clairmont (lire cet article), notre bien-aimé CTO !
J’embarquai dans un projet de dix jours dont les missions consistaient, de façon globale, en la construction de requêtes et le pré-traitement des jeux de données sur Dremio, à la demande du client. Autant donc dire que j’allais un peu à l’aventure, sur un terrain peu connu…
Quels ont été mes plus grands défis sur toute la durée de la mission ?
Je suis arrivé en mission chez le client avec l’étiquette du genre « Monsieur connais-tout sur Dremio », j’ai du répondre à 5 questions techniques du genre « Comment faire ceci sur Dremio ? Comment faire cela sur Dremio ? » et ce durant la première heure.
Et, je m’en suis très bien sorti et seulement avec quelques jours de formation pour me familiariser avec Dremio. \o/ Grâce aux cours de Dremio University (que je recommande fortement), on se familiarise sans trop grande difficulté avec la plateforme. Les cours sont explicites et les QCM qui suivent sont axées sur l’essentiel à connaître. De plus on est “Dremio Diploma” dès 80% de bonnes réponses. En effet, réaliser le parcours Dremio University offre déjà 70% de la compétence à avoir pour manipuler la plateforme. Ce qui montre toute la simplicité de la prise en main de la plateforme.
Quels avantages à faire du SQL – Nettoyage de données avec Dremio ?
Durant mes missions, j’ai principalement travaillé sur 3 modules de Dremio :
Hands on analysis and data exploration : joining data, describing and tagging data, Data lineage, first descriptive analysis
– Jointures : c’est un jeu d’enfant sur Dremio. Nullement besoin d’écrire les requêtes. Si on connait ses pivots, ses tables, le type de jointure, l’interface est assez simple d’utilisation, il suffit de faire du drag and drop et le tour est joué. De plus, on a à disposition la requête utilisée que l’on peut modifier à sa guise au besoin.
On réalise une left join (beige = pivot table gauche et bleu = pivot table droite). On voit bien la facilité de lecture qu’on peut faire. A noter que l’on peut faire autant de jointures que l’on veut.
- Description and tag : vous venez de réaliser une nouvelle requête, vous la décrivez pour une meilleure compréhension ou vous la taguez (#data) pour la retrouver plus facilement
- Data lineage : On a une requête construite à partir de plusieurs tables provenant de différentes sources, on peut remonter et identifier ces sources à l’aide d’un graphique (decision tree) qui en plus nous montre les pivots utilisés.
– Hands on data curation : data transformation, calculated fields, cleaning text, splitting, Handling complex data, etc… : on peut faire de la DataPrep afin d’avoir un donnée clean, et ce de manière très interactive.
– Client access : On peut combiner Dremio à Tableau, R pour finaliser ses analyses en un instant record avec de la donnée clean et on peut faire des aller-retour très facilement.
– Original query : Un·e collègue vous a transmis une table et vous voudriez savoir comment elle a été construite . No soucis, vous pouvez avoir accès au code qu’il ou elle a écrit et l’éditer si besoin.
Par exemple, je viens de réaliser cette requête :
Dès qu’elle est enregistrée, un autre user peut avoir accès à la requête originale en cliquant sur “Edit Original SQL” et ça donne :
– Another example : un autre truc que je n’aurais jamais su faire sans Dremio !
Soit le jeu de données ci-dessous où dans la colonne “votes”, on a les occurrences de 3 attributs différents : cool, useful et funny.
Imaginons que je voudrais juste les occurrences de l’attribut “useful”. Avec Dremio, on peut en 3 clics passer de :/ à :).
Comment ?
Juste un clic sur n’importe quelle ligne de la colonne, on obtient un petit rectangle pour faire son choix (useful dans notre cas).
Alors on peut “extract” l’attribut choisi, le renommer à sa guise et on obtient :
On voit qu’on a juste extrait les “useful votes” dans la colonne suivante et de plus on a en cadeau la requête associée qu’il faut cependant pouvoir digérer.
Quels sont les moins de Dremio – Ce que j’ai le moins aimé ?
– Connexion avec Tableau : j’ai testé la connexion avec Tableau et elle est encore très instable avec les nouvelles versions de Tableau. Par contre avec les versions 10 de Tableau, c’est que du fun.
– Hands on queries code : Pour ceux qui ont besoin de comprendre le code de la requête et la reprendre au besoin, cet exercice peut s’avérer fastidieux.
Conclusion
Dremio est un outil de Data Prep, Dremio est un Datawarehouse, Dremio est un moteur d’exécution SQL et on pourrait lui trouver d’autres dénominations en fonction de l’utilisation !
Quand on est junior dans le monde de la data, découvrir et pouvoir manipuler si facilement de nouvelles technologies, c’est réconfortant ! Alors mesdames et messieurs, Dremio c’est pas sorcier, donc à 3 on y va. Un… Deux… et Trois…!
Très intéressant !
Deux questions :on peut rafraîchir les données quotidiennement ?
On peut imaginer une connexion avec Qlikview ?
Hellooo!!!
Question 1 : oui on peut rafraîchir quotidiennement les données. Il faut juste activer l’option.
Question 2 : la connexion est possible avec Tableau, Power BI et Qlik Sense (version plus moderne que Qlikview), il y’ a juste un connecteur à installer.
J’espere avoir répondu à tes interrogations 🙂
[…] https://www.synaltic.fr/blog/rex-trois-semaines-dutilisation-de-dremio […]