Juin 14

Vers l’analytique en continu

14/06/2017
Charly Clairmont
Business Intelligence, Evénements, Open Source

Envoyé spécial au Berlin Buzzword 2017, Charly Clairmont poursuit son exploration des dernières tendances de l’open source. Aujourd’hui, il nous parle de data au service de l’humanité et des dernières innovations autour d’Apache Kafka.
L’expérience du Berlin Buzzword est vraiment passionnante. Une large place est donnée à la communauté open source et les talks sont souvent captivants.
Si vous avez suivi mes tweets vous avez dû noter une certaine effervescence ! Enfin peut-être pas non plus, il ne faut pas exagérer ! Toutefois, j’ai eu de nombreuses réponses, retweets. Ce que je racontais devait un peu intéresser… Bref !
La journée avait bien commencé avec Duncan Ross, de Data Kind, une organisation à but non lucratif, qui œuvre à exploiter les données au service de l’humanité. Ross a réalisé un sondage pour savoir à quel point nous craignions ou non l’intelligence artificielle. Il suggérait à quel point encadrer l’IA était très difficile, voire subjectif se rapprochant du proverbe « le bonheur des uns fait le malheur des autres« . En effet, l’algorithme qui fait économiser à l’un peut entraîner une diminution de revenu pour l’autre (voir l’article « Sexist algorithms« ). Ici, Il est surtout question de découpler les propositions de l’algorithme des décisions à prendre (voir l’article « Fair data – fair algorithm ?« ). Un algorithme pouvant aussi être biaisé par les données qui lui ont été fournies, sans même parler de leurs qualités. Bref comme hier, Duncan Ross nous a remis une petite couche sur notre responsabilité en tant qu’informaticiens/nes.
Il a aussi été question d’engagement pour prendre part au débat citoyen et expliquer largement au plus grand nombre l’impact du numérique au sein de notre monde.
Avec une telle introduction, nous voilà gonflés à bloc pour suivre les différentes sessions plus techniques !

Streaming, LE buzzword du Buzzword !

J’en reviens à mes tweets ! Durant la session sur Apache Kafka Stream mon téléphone n’a pas arrêté de vibrer : plusieurs membres de l’équipe de Confluent ont apprécié un de mes tweets et c’est allé jusqu’à Jay Kreps, co-créateur de Apache Kafka. Une chose est sûre, la salle était pleine à craquer !

Packed room for @apachekafka stream presentation done by @miguno #bbuzz pic.twitter.com/F5GuCHxQ8B

— Charly CLAIRMONT (@egwada) 13 juin 2017

Tout le monde était là pour voir diffuser la vision de Ben Stopford, de Confluent, qui voit en Apache Kafka La Plateforme de Données par excellence : tous les traitements peuvent y être exécutés depuis l’arrivée de Kafka St-Jean et Kafka Connecté ! Michael G. Noll a fait une très vive et passionnée présentation d’Apache Kafka Stream plaçant d’emblée Apache Kafka comme chantre du système d’information des organisations.
Le transport des données s’architecture désormais très souvent avec Apache Kafka, toutefois les solutions d’ingestion ne manquent pas. Apache Nifi constitue une bonne solution, fiable pour collecter et à acheminer des données. MiniFi, version très légère, peut tourner sur des appareils faibles en ressources (IOT, Android, Raspbery…).
Si à Berlin Buzzword, il s’agissait d’une vulgarisation des concepts d’Apache Nifi, au Dataworks Summit, c’est HDF 3.0 qui tient la vedette ! Car, de l’autre côté de l’Atlantique, Hortonworks avait présenté une solution complète pour gérer le streaming de bout en bout ! Apache Nifi étant la brique d’acheminement alors qu’une nouvelle solution, Streaming Analytics, aide à la construction de traitement temps réel (Apache Storm). Bref « streaming » est définitivement le buzzword !

Les grands bluffent

Deux solutions m’ont bluffé dans lors de cette deuxième journée à Berlin Buzzword : Apache Apex et Hopswoks.
Apache Apex, je l’avais déjà évoqué suite au Hadoop Summit de 2016. Sauf que depuis, cette solution a gagné en élégance. Elle peut, à mon avis, aider réellement à quitter l’ETL classique pour tout réaliser en streaming : objectif réduire les durées de traitements.
Petit rappel de Thomas Wise, Apache Beam est une bonne initiative. Toutefois, ce cadre de développement oblige de s’inscrire dans les primitives de Beam, et non ceux du moteur d’exécution lui même. On risque ainsi de trop s’écarter de la richesse fonctionnelle du moteur d’exécution.
« Hadoop for Human« , C’est le slogan de Hops et de Hopswork. C’est une distribution Hadoop Européenne, tout doit sortie d’un projet de recherche suédois, financé en partie par l’Europe.
La présentation de Jim Dowling mérite d’être vue ! La plateforme est très usuelle. Elle est pensée pour assister et encadrer l’utilisateur (métier, développeurs, data scientiste, Ops…). Par exemple, la sécurité est gérée simplement et efficacement : pas de re-copie de données mais un partage efficient et sécurisé.

Pour finir j’ai participé au workshop de Mapr, où l’on à pu voir la gestion de bout en bout d’une chaîne IOT. Ce fut l’occasion de discuter avec Tugdual Grall et Ted Dunning.

Charly Clairmont

A propos de l'auteur: cclairmont

Après un court passage par une startup dans les années 2000, Charly fonde Altic qui est ensuite devenue Synaltic. Passionné par l'urbanisation des systèmes d’information, l'innovation, la donnée, il a toujours défendu le logiciel libre et l'open source.

Articles Suggérés

Talend Open Studio, c’est vraiment fini ?

Qlik à annoncé en fin d’année abandonner Talend Open Studio à partir du 31 janvier 2024, le studio Open Source qui permet de générer et de maintenir des jobs, autrement dit des applications java.
Update on the future of Talend Open Studio | Talend Blog

Cette annonce n’à pas engendrée beaucoup d’émotion dans la communauté d’utilisateurs, il y’a eu pour tout dire très très peu de réaction … certainement que beaucoup pressentaient déjà cet abandon. Le Studio n’était plus mis à jour depuis novembre 2021. La marketplace Talend Exchange a été archivée en juillet 2022. C’est maintenant au tour du Studio depuis le 31 janvier 2024 😭

Cependant, on connait déjà la musique, ce ne sont pas les premiers produits Talend à disparaitre. On pense notamment à :

Talend Open Studio for Data Quality,

Talend Open Studio for GeoSpatial,

et dans une autre mesure : Talend MDM !

Que comprendre de l’abandon de Talend Open Studio ?

Le logiciel n’évoluera pas plus, le code source est figé. La licence autorise cependant son utilisation ad vitam aeternam. Et elle permettrait même de poursuivre le projet…

Le Studio continuera donc d’être utilisable sur votre configuration actuelle (OS et environnement Java) et dans les autres configurations déjà compatibles aujourd’hui.

Par contre, l’accès la connaissance est perdu. 😭
La documentation online et le forum ont été la base du onboarding de bien des experts. Il va être désormais plus difficile de faire ces premiers pas sur Talend, notamment pour les étudiants et ceux qui sont déjà en poste dans une entreprise qui n’a pas souscrit à l’offre payante.

Qu’advient-il des jobs déjà déployés avec Talend Open Studio ?

Les jobs sont indépendants du Studio, ils ne sont pas affectés par ce changement (ils sont par contre liés à votre environnement java)..

La question se pose au niveau de leur maintenance. Allez-vous tenter de les éditer avec le Studio ou les remplacer un à un par une autre technologie ?

Si vous n’avez pas déjà succombé à la suite payante, vous avez certainement déployé une solution pour monitorer vos jobs. Ainsi vous savez identifier les jobs qui cessent de fonctionner … et vous pouvez les remplacer par une autre technologie … ou les maintenir avec le Studio au fur et à mesure. En d’autres termes, si vous vous y prépariez, vous êtes probablement déjà prêt 🙂

Par contre si vous n’avez pas de solution de monitoring aboutie et avez de nombreux jobs Talend déployés … il est temps de penser à sécuriser tout cela !

Que se passe-t-il si je continue à maintenir mes jobs avec Talend Open Studio ?

Si l’on peut encore quelques temps continuer d’éditer nos jobs dans le Studio, au fil de l’eau, des composants ne fonctionneront plus. En effet les solutions tierces vont continuer à évoluer …. mais pas les composants s’y référant.

Chacun choisira alors de mettre à jour lui-même les composants qu’il utilise, ou d’utiliser des tJava / tJavaRow en remplacement … ou encore de pivoter finalement vers une technologie alternative !

Ainsi, à terme, vous finirez toujours par remplacer vos jobs Talend par une autre technologie.

Quant aux nouveaux process à générer, faut-il continuer à utiliser Talend Open Studio ?

Sincèrement, difficile de se l’interdire complètement, le Studio est un couteau suisse essentiel à qui sait l’utiliser. L’offre ETL a beaucoup évolué. Il n’y a pas un outil à faire autant consensus aujourd’hui. Donc pour du one shot : oui et pourquoi pas après tout ?

Si on a un job qui répond à notre besoin fonctionnel, c’est bel et bien un programme java qui sera exécuté … un programme java totalement indépendant du Studio ! C’est bien au niveau de la maintenance de ce programme que se pose donc les questions. C’est pour cela que l’on distingue ici les jobs one shot et ceux qui vont s’exécuter au fil de l’eau et finir par réclamer une phase de maintenance.

Pour tout ce qui réclamera une maintenance, nous déconseillons désormais l’utilisation de Talend Open Studio, il faut préférer souscrire à la version payante ou choisir une solution alternative.

Talend Open Studio, c’est vraiment fini ?

La question se poserait différemment si une réelle communauté d’utilisateurs se montrait prête à supporter le code open source du Studio et des composants… mais comme vu au début de cet article, la communauté utilisateurs est pour le moment très discrète. Nous sommes impatient de voir si une communauté d’intérêt va émerger en 2024 et notamment si de nouveaux utilisateurs la rejoindrons.

Un fork a cependant été annoncé : Talend Open Studio : Un Nouveau Départ, Une Nouvelle Communauté !
L’histoire reste donc « à suivre ».

update du 07 Février 2024 : Lancement de Talaxie Open Studio !

Quand passer à Talend Entreprise ?

Il est évident que face à la criticité de vos flux pour le bon déroulement de votre activité vous ne pouvez écarter cette option. Entre le coût de migration vers une alternative, son apprentissage… Le plus simple c’est de se faire accompagner, demander une licence NFR pour l’évaluation de la solution.

Synaltic vous invite à surtout considérer Talend Cloud, avec l’architecture hybride. Vous disposez d’une large gamme d’outils très pratiques pour gérer efficacement vos données : Talend Data Prep, Talend Data Stewardship, Talend Pipeline Designer, Talend Data Inventory…

Dans tous les cas, c’est une question de liberté et de souveraineté.

L’open source offre des standards ouverts, de l’interopérabilité à la fin c’est une question de souveraineté et de liberté.

Si vous avez de nombreux flux développés avec Talend Open Studio, vous passerez un temps certain à migrer vers une autre plateforme ETL. On ne passe pas d’une solution ETL vers une autre comme ça. Cette décision de Talend vous impose des choix. Chaque projet est particulier. Chaque projet a son contexte. Chaque projet a ses propres enjeux. Considérez les différentes options qui s’offrent à vous. Talend propose d’embrasser leur version Entreprise. Votre liberté vous invite à vous interroger face à des alternatives.

Vous souhaitez passer à Talend Cloud ?
*champs obligatoires
Apache Airflow, des pipelines pour gérer vos données

Nous ne comptons plus les solutions pour orchestrer des tâches. Si Apache Airflow a démarré autour de 2015, de nombreuses solutions nées après, proposent toutes de corriger toutes ses imperfections.

Tout d’abord il faut bien noter que Apache Airflow est née dans l’idée de gérer et faciliter la planification de flux de données. Ce point est très important pour le comparer à tous ces concurrents. Il convient dès lors d’avoir en tête les cas d’usage pour lesquels l’employer et en tirer de réels bénéfices et au contraire savoir quand il ne faut pas l’utiliser.

Lire la suite »
Modern Data Stack pour construire votre zone de chalandise

Connaissez-vous votre zone de chalandise ? Avez-vous pu faire le tour de la question ? Allez on y va !
La zone de chalandise d’un magasin est comme la portée d’une antenne radio. L’antenne radio peut recevoir des signaux radio à une distance maximale. De la même manière, la zone de chalandise d’un magasin constitue le périmètre qui peut attirer des clients. He, oui, la transformation digitale passe aussi par le physique ! Ne nous écartons pas trop. Certains parlent de “Phygital” ! Mais revenons à la zone de chalandise 🙂

C’est quoi, une zone de chalandise ?
La zone de chalandise est une zone géographique qui identifie d’où viennent les clients d’un magasin. Cette zone est structurée en fonction de différents critères, tels que :
- La distance maximale que les clients sont prêts à parcourir pour se rendre au magasin
- La concurrence existante dans la zone
- Les caractéristiques sociodémographiques de la population de la zone
Fort de cette définition, pensez aux données que vous accumulez dans votre système d’information. Savez-vous où se situent vos clients ? Quelles distances parcourent-ils pour se rendre jusqu’à chez vous ? Connaissez-vous le bassin, le territoire où habitent vos clients ? Aujourd’hui nous sommes plus forts en données ! Nous avons les open data ! Et ça ! Ça change tout ! Chez Synaltic nous pouvons
croiser vos données et les open data.

A quoi sert votre zone de chalandise ?
Si la géomatique, ou la “Location Intelligence”, constituent une aide précieuse pour éclairer vos décision grâce à un axe géographique, la zone de chalandise vous aide spécifiquement dans le cadre des enjeux suivants :
- Amélioration de la performance commerciale : vous identifiez vos clients potentiels et vous les cibler plus efficacement. Ici, il est question d’augmenter votre activité.
- Optimisation du réseau de points de vente : vous identifiez les zones où vous devez ouvrir de nouveaux points de vente ou en fermer. Ici, il est question d’améliorer l’efficacité du réseau de points de vente.
- Amélioration de la satisfaction client : vous identifiez les besoins et les attentes de vos clients. Ici il est question de cerner, de connaître le profils de vos clients, de segmenter vos clients afin d’être au plus près de leurs satisfaction client et à une fidélisation de la clientèle.
Comment matérialiser une zone de chalandise ?
Les données ouvertes et la géolocalisation vous appuyer pour bâtir :
- une zone géographique qui représente tous les points qui peuvent être atteints depuis un point donné en un temps donné : l’isochrone;
- une zone géographique qui représente tous les points qui peuvent être atteints depuis un point donné en une distance donnée : l’isodistance.
Quels outils pour construire vos zones de chalandise ?

Synaltic vous propose une Modern Data Stack afin de tirer partie de l’ensemble de vos sources de données. En plus des fonctionnalités de géolocalisation que possède votre data lake ou votre data warehouse, Synaltic vous propose une solution de calcul de routing. Vous êtes en mesure de construire vos isochrones, vos isodistances. Pardon, vous allez pouvoir visualiser :
- votre zone de clientèle : comprendre où sont vos clients
- votre zone de ciblage : circonscrire où vous voulez avoir un impact et y focaliser votre action marketing
- votre zone d’attraction théorique : évaluer l’attraction de vos points de vente y compris face à la concurrence.
Les outils de calculs de zone de chalandise s’inscrivent aussi bien dans les outils d’informatique décisionnelle que dans une installation autonome. Par exemple dans Tableau Desktop ou Tableau Cloud.
Vous calculez vos isochrones et vos isodistance selon un grand nombre de critères de mobilité :
- à vélo
- à pied
- en voiture
- en poids lourds
- en transport en commun
- à moto
La stack propose aussi une solution de routing. Vous pouvez ainsi mieux identifier la complexité pour un client de se rendre ou non dans vos établissements.

A propos de KeplerGL
Lorsque les données sont de tailles plutôt grandes, ces tâches qui à priori sont faciles à réaliser avec les outils conventionnels type QGIS deviennent plus problématique. En d’autre termes, afficher une base de données de millions d’entités avec QGIS peut parfois se relever très compliqué. Lancé en 2018 KeplerGL est un outil open source d’Uber qui se base sur le framework de visualisation de données DeckGL dédié aux données à grande échelle. S’appuyant sur la technologie webGL qui permet de créer, afficher et gérer les éléments graphiques sur un navigateur, KeplerGL améliore la vitesse de visualisation et d’analyse des données géolocalisées. Pour en savoir plus, visitez kepler.gl

Cas clients

Choix du lieu d’implantation
Synaltic a récemment aidé un de ses clients à construire une solution avec Tableau Cloud afin de mieux identifier où des praticiens pouvaient ou non s’implémenter eu égard à la population légale habitant sur un territoire.

Quel garagiste pour répondre à l’assuré ?
Accompagner l’usager afin et l’aider à gagner du temps, c’est sans doute la meilleure façon de le garder ! Nous avons bâti pour un client une solution qui lui permettait d’identifier les garages qui étaient le plus proche du domicile d’un client dont la voiture avait connu des dommages ! La remontée régulière d’information au sujet de la disponibilité des garagistes constituait le critère déterminant quant à désigner celui qui devait être sollicité.

Contactez-nous !
Synaltic vous accompagne quant à vos projets décisionnels et plus particulièrement sur ces problématiques de zone de chalandise. Pour nous faire part de vos projets ou simplement en savoir plus sur la Modern Data Stack que nous implémentons, remplissez le formulaire suivant !

*champs obligatoires

Lisez notre politique de confidentialité pour savoir comment nous traitons vos données