Tableau </3 R ?
Depuis sa version 8, Tableau souhaite aller plus loin et véritablement s’engager dans une relation de plus en plus fusionnelle avec les statistiques avancées. Symbolisé par l’apparition du connecteur R en 2014, Tableau officialise sa proposition de mariage afin de réunir les amoureux de la dataviz nouvelle génération avec les irréductibles thuriféraires des statistiques et du langage R. Néanmoins, peu de use-cases résultent de cette union et l’amour passionnel auquel on pouvait s’attendre ne semble pas s’être déclaré. Ainsi, pouvons-nous tenter de donner un aperçu des raisons de cet amour impossible entre deux outils pourtant si complémentaires.
Rencard entre Tableau & R
Avant de commencer, rappelons tout d’abord le parcours de nos deux tourtereaux.
R est un outil de statistique avancé libre développé par des universitaires américains afin d’offrir une alternative au logiciel propriétaire SAS. C’est en 1993 qu’une première version voit le jour, mais ce n’est que depuis quelques années que s’est accéléré l’engouement autour de cet outil grâce à une augmentation intensive du nombre (et de la diversité) des librairies développées par la communauté, composée majoritairement d’établissements de recherche.
Né 10 ans plus tard aux Etats Unis, Tableau est un logiciel propriétaire de plus en plus populaire qui a pour ambition de proposer des visualisations efficaces permettant aux entreprises d’appréhender et d’explorer leurs chiffres avec efficience et simplicité. Offrant un outil relativement facile d’accès basé sur le drag & drop ainsi que des visualisations et des fonctionnalités statistiques simples, Tableau a réussi à s’imposer comme outil adapté au partage et à la diffusion d’indicateurs dans le domaine de l’entreprise.
Si R et SAS ne sont ni méconnus ni ignorés du monde de l’entreprise, il apparaît néanmoins que ces deux outils statistiques nécessitent des compétences spécifiques tant liées aux statistiques qu’aux langages employés de ces logiciels, là où Tableau offre une simplicité d’utilisation et des fonctionnalités répondant à l’essentiel des besoins en analyse de données des entreprises. Il n’en demeure pas moins que les entreprises ont également besoins d’analystes faisant appel à des statistiques avancées pour mieux comprendre leur activité. Toutefois, aussi pertinentes sont ces études, elles n’auront de valeur que si elles sont intelligibles par tous. A ce titre, la connexion possible entre R et Tableau apparaît comme un compromis prometteur dans la mesure où Tableau se propose comme une interface entre statisticiens et non-statisticiens.
« R est l’outil le plus répandu pour l’analyse statistique et l’exploration des données, mais il est loin d’être facile à utiliser. Tableau vous permet de détecter des tendances rapidement et facilement, mais aussi de créer des modèles pratiques si vous utilisez R. En effet, vous pouvez répartir, filtrer et agréger vos données en quelques clics pour optimiser vos modèles avant d’écrire une ligne de code, et ainsi mieux faire parler vos données. Grâce à Tableau, vous pouvez transmettre facilement le résultat de vos analyses en créant des tableaux de bord interactifs dotés de menus déroulants, de curseurs et d’indicateurs visuels, en quelques minutes seulement. Avec Tableau, vos interlocuteurs peuvent profiter pleinement et en toute autonomie de vos analyses. De votre côté, vous pouvez vous concentrer sur la création de modèles encore plus pertinents. »[1]
Je t’aime… moi non plus
Conscient de cette complémentarité, et fort d’avoir gagné le cœur de nombreux utilisateurs, il s’agissait là d’une aubaine pour Tableau que de se présenter comme un prétendant à R afin de conquérir à présent le cœur des statisticiens. Mais bien que ces outils soient très complémentaires, ils sont aussi et surtout si différents. La différence d’âge entre les deux outils ne pose pas de problème à Tableau, tant R a su faire peau neuve, mais il apparait néanmoins que beaucoup de choses les opposent en termes de communauté d’utilisateurs, de modèle économique ou encore d’accessibilité.
Si Tableau a fait des efforts en s’efforçant d’apprendre à communiquer avec R, l’outil n’a pas réussi à rassembler les communautés. Ce d’autant plus que Tableau reste inflexible sur la structure de données en entrée là où R est plus malléable et permet de remonter des indicateurs d’explications des modèles que Tableau ne sait interpréter au sein d’une même source de données. En ce sens, Tableau peine à convaincre les utilisateurs les plus aguerris de R lorsqu’il s’agit de recourir à des analyses statistiques poussées.
Malgré tout, Tableau ne désespère pas et persiste à penser (à juste titre) que la puissance des algorithmes statistiques proposés par R a du sens. Ces derniers doivent néanmoins être plus accessibles à tout un chacun. Ce chagrin d’amour éprouvé envers R se traduit alors par une poussée d’indépendance de Tableau, par l’ajout de fonctionnalités statistiques jusqu’alors disponibles qu’avec R (clustering via Kmeans depuis la version 10, covariance et corrélation depuis la version 10.1).
Tableau versus R
La mise à disposition en natif de ces différentes fonctionnalités peut faire penser à une relative mise en opposition de ces différents logiciels. Pourtant, c’est toujours avec la main tendue vers R et ses utilisateurs que Tableau poursuit sa route en intégrant certaines fonctionnalités proposées par R.
Le principal objectif de Tableau, en ajoutant ces fonctionnalités, est très certainement d’offrir à ses utilisateurs des possibilités d’analyses statistiques avancées sans pour autant que ces derniers n’aient à se soucier du paramétrage parfois complexe de ces algorithmes. Tableau va alors se charger de déterminer les paramètres les plus adéquats à la place de l’utilisateur.
La question se pose alors des hypothétiques différences de résultats pouvant être obtenus entre un algorithme provenant de R et un algorithme provenant de Tableau. Pour pouvoir les comparer, il faudrait avoir de plus amples informations sur les paramètres utilisés par Tableau, néanmoins, nous vous proposons ici un petit test de comparaison entre les résultats provenant de Tableau ceux provenant de R concernant les algorithmes de Clustering et de Forecast d’après les éléments que nous avons à notre disposition.
En ce qui concerne les Kmeans, les différences semblent mineures si on utilise l’algorithme de Lloyd avec R (Tableau utilise cet algorithme). On dénote néanmoins des différences de classes entre les deux algorithmes. R propose une classe mettant en avant les produits particulièrement peu rentables (classe 2 en noir) là où Tableau propose de scinder en deux (vert et turquoise) des produits ayant une rentabilité sensiblement différente.
Concernant le Forecast, on dénote que R est moins optimiste que l’algorithme de prévision de Tableau. Néanmoins les résultats sont sensiblement les mêmes, du point de vue de la tendance. On notera également que les résultats proposés par R sont proches de ceux de Tableau et se situent dans l’intervalle de confiance proposé par l’algorithme de prévision de Tableau.
Conclusion
Les dernières versions de Tableau tendent à s’orienter vers une mise à disposition de fonctionnalités statistiques de plus en plus avancées. Néanmoins, son objectif n’est pas de se substituer à R ni de proposer une pléthore de fonctionnalités et de paramètres. Il s’agit là de rendre accessible à tout un chacun des fonctionnalités ayant du sens pour le monde de l’entreprise, malgré les risques que cela puisse comporter. Si Tableau et R ont parfois du mal à s’entendre, ou se comprendre, leur amour n’est pas impossible pour peu qu’on se donne les moyens de les faire coopérer. Leur relation n’en demeure pas moins compliquée malgré leur complémentarité.
Franck Nguyen
Source image : Designed by Freepik
Sections commentaires non disponible.