Tableau 10.5 est arrivé et évidemment qu'on a une viz à vous montrer !

L’arrivée de Tableau 10.5 en ce début d’année amène son lot de nouvelles fonctionnalités. Parmi les quelques innovations de Tableau Desktop 10.5, on peut apprécier le déploiement du nouveau moteur d’extraction (Hyper) et aussi, la tant attendue, fonctionnalité d’insertion de graphiques dans les infobulles ! Ce billet de blog va se concentrer sur ces deux fonctionnalités. Je ne parlerais pas de Tableau Server Linux qui lui mériterait un billet de blog complet tant c’est une nouveauté attendue (depuis 2014 pour ma part…). Vous êtes prêts ?!

Viz in tooltips : Ooooooh Yeaaaaah…

Et oui, Mesdames et Messieurs, après tant d’années d’attente, elle est enfin disponible et elle va changer la face du monde. Son nom ? Viz In Tooltips ! Bon soyons clair, c’est une belle fonctionnalité mais qui est trop jeune et pas complètement aboutie. Et ce pour plusieurs raisons, que je vais tenter d’expliquer dans la suite de mon propos.
Premièrement, il faut l’avouer, c’est tout à fait formidable de pouvoir intégrer des graphiques à une infobulle. Comme le dit si bien Confucius : « une image vaut mille mots ». Eh bien, c’est vrai ! C’est parfois beaucoup plus parlant de mettre un graphique pour enrichir l’analyse que de rédiger un texte complet et pompeux que trois pèlerins voudront bien lire… En ce sens, la fonctionnalité Viz In Tooltips est vraiment, mais alors VRAIMENT, la bienvenue. Donc rien que pour ça, Tableau, bravo !

Autre côté vraiment intéressant : il est possible d’intégrer des graphiques provenant d’une source secondaire ! Et ça aussi c’est vraiment top ! Bon il faut juste faire un peu attention aux champs sur lesquels on filtre parce que sinon c’est raté… (il faut filtrer sur tous les champs et non sur un champ unique pour que ça fonctionne). Il faut savoir d’un point de vue technique que les Viz In Tooltips fonctionne grâce à des actions de filtre. C’est pour cela qu’il faut définir des champs sur lesquels réaliser l’action.
Bon maintenant passons aux choses qui fâchent un peu plus… Le premier point que je trouve un peu préjudiciable c’est la performance. En effet, l’affichage des graphiques dans les infobulles peut paraître long et notamment sur Tableau Server. On s’attend en général sur des vues web à avoir un affichage quasi-instantané des infobulles. Mais là c’est parfois assez long, bien trop long par moment… Il est possible que techniquement cela provienne de la génération de l’image qui est faite à la volée lors de l’action. Cela va également dépendre de la complexité du graphique ainsi que des données (comme toute action d’ailleurs).
Le deuxième point provient des infobulles elles-mêmes. Elles ne sont pas « formatables » et ne permettent pas de choisir une couleur de fond par exemple. C’est dommage pour la mise en forme et la cohérence globale d’une visualisation. Dans l’exemple plus bas, le fond du tableau de bord est noir alors que l’infobulle est blanche. Bon c’est un détail esthétique mais parfois c’est ce genre de détail qui peut rendre un tableau de bord complètement réussi !

Hyper : c’est hyper bien ! (ah ah ah )

Concernant le nouveau moteur d’extraction Hyper, on est d’accord c’est quand même vachement mieux. C’est plus rapide, c’est plus efficace et c’est moins consommateur de ressources. Et ça, ce n’est pas rien ! Durant les quelques tests que j’ai réalisé, j’ai notamment réussi à extraire presque 40 millions de lignes à partir d’un croisement entre CSV et Shapefile en environ 5 minutes. Ce n’est pas instantané (quel outil peut se vanter d’être instantané à ce niveau là ?) certes mais c’est quand même beaucoup plus rapide que l’ancien moteur (TDE).
Au niveau des ressources utilisées, je trouve que cela est mieux optimisé que le moteur TDE. En effet, il y a légèrement plus de CPU consommé mais moins de RAM. J’ai le sentiment que cela permet d’équilibrer l’utilisation des ressources pour réaliser l’extraction. Cela évitera peut-être d’exploser la RAM lors de très très grosses extractions comme dans les versions vraiment anciennes de Tableau.
Enfin au niveau des performances, on est d’accord pour dire que c’est plus efficace que le moteur TDE. Les données sont interrogées plus rapidement et l’exécution des requêtes est quasiment invisible. On ne voit désormais plus que la pop-up de calcul de l’affichage. Et ça, il faut avouer que c’est un réel progrès.

ECG de Paris

Bon pour conclure tout cela, j’ai repris un thème que j’affectionne pour une visualisation : les transports en commun parisiens. Les données utilisées proviennent de la STIF (portail open data). Pourquoi ce thème ? Parce qu’il permet d’utiliser des données géographiques et « tabulaires ». Cela m’a permis de voir comment se comporte le moteur Hyper lors la création d’extraction à partir de shapefile croisés avec des csv.
Concernant la visualisation, le but est de montrer que l’ensemble du réseau ferré de transport en commun de l’Île-de-France représente quasiment le cœur de Paris. Toutes les lignes ferrées convergent vers Paris centre, telles des veines et artères amenant le sang dans le palpitant. Le nombre de voyageurs empruntant ces lignes permet de donner une épaisseur différente à chaque ligne. On peut remarquer que certaines lignes sont vraiment vitales au bon fonctionnement de Paris (par exemple le RER A qui est premier en terme de trafic et loin devant).
Les fréquentations ont également été récupérées et pour le coup affichées dans les infobulles. Ces fréquentations sont affichées en moyenne sur l’année (des coefficients sont appliqués sur les catégories de jours fournies par la STIF afin de pondérer les valeurs. La STIF catégorise les journées en « Jours Ouvrés Hors Vacances Scolaires », « Dimanche et Jours Fériés », « Samedis Vacances Scolaires », etc.). La période d’analyse s’étend de juillet 2016 à juin 2017. Il y a donc 1 an de données, ce qui permet de voir les effets de saisonnalité (vacances scolaires et jours fériés). Petite remarque tout de même, il y a un défaut de données au mois de décembre 2016.