Mai 06

#StrataData | Un basculement vers le Fast Data

Charly Clairmont a répondu présent à l’invitation de Ben Lorica d’O’Reilly et s’est rendu à Strata Data London 2019 du 29 avril au 2 mai dernier. Il nous livre ses impressions dans un article.

Strata Data Conference London 2019 constitue l’un des tous premiers événements après la fusion validée entre Cloudera et Hortonworks.

Hadoop continue sa mutation

Sur le stand de Cloudera, l’appellation retenue, il y avait bien des présentations de solutions des deux bords. Ce qui est encourageant et qui laisse bien penser qu’il y a la volonté de réunir au mieux les deux plates-formes. Il faut par ailleurs noter que l’architecture retenue est proche de celle que promouvait Hortonworks.

.@cloudera via @awadallah nous permet d'envisager CDP Cloudera Data Platform #StrataData pic.twitter.com/TpTpsmnVhC

— Charly CLAIRMONT (@egwada) May 2, 2019

De nombreux analystes ont estimé que les acteurs du Cloud avaient mieux anticipé ce basculement que les spécialistes du data management qu’était Hortonworks et Cloudera. Cependant leur pari sur Kubernetes et la ré-architecturation de leur solution pour ce gestionnaire des containers – ou on pourrait dire ce gestionnaire de microservices – constitue une réelle opportunité : “développer une fois et délivrer partout” ! Sans compter la volonté d’aller vers le Multi-Cloud qui est presque la raison d’être de Kubernetes ! Et c’est aussi le nouveau cheval de bataille ou de Troie de Google Cloud Platform avec Anthos !

Tel que le montre le schéma ci-dessus, il est question d’exploser les services Hadoop tels des microservices. Avec le découplage du stockage et du calcul, une ou plusieurs instances de services de stockage persistent les données. Ces dernières peuvent être accédées par des instances de cluster de calcul tels que Hive, Spark ou autre. A la limite on peut presque envisager une optimisation des ressources parce que ces instances de calculs peuvent être lancées à la demande. Finalement, un traitement peut carrément être packagé avec une instance de calcul… Ce qui est bien envisageable dans le cas de traitements Spark.

Ce qu’il faut aussi retenir c’est que cette architecture rend complètement agnostique l’infrastructure où s’exécute la plateforme.

Et le machine learning tire le marché

Dans le monde de la donnée, et en ce moment, le mouvement est machine learning et intelligence artificielle. Même si certains insistent pour nous (r)assurer que l’Intelligence Artificielle n’existe pas !

Quoi qu’il en soit, la problématique des utilisateurs demeure toujours l’ingestion, donc de l’ETL.

Quand bien même, il faut observer les tendances. A cette heure, il est grandement question d’industrialisation, de Fast Data.

De nombreux retours d’expérience ont bien mis en avant l’importance qu’il y avait à gérer les projets de données comme des projets de développement classiques où chaque composant devait être versionné et connaître son propre cycle de livraison.

Il y a de nombreux outils et solutions #MachineLearning sur le marché ! Mais il apparaît que ce ne soit toujours pas si simples…. #StrataData pic.twitter.com/RErpkq4JsA

— Charly CLAIRMONT (@egwada) May 1, 2019

Un exemple d'une chaîne de #CICD pour du #MachineLearning #StrataData pic.twitter.com/0KkvFZN2vy

— Charly CLAIRMONT (@egwada) May 1, 2019

Nous revenons donc au machine learning et c’est bien à l’industrialisation de tels projets que s’attaquent des solutions telle MlFlow, DVC, ou encore Kubeflow.

Concentrons nous maintenant sur le Fast Data !

Par exemple une plateforme sur laquelle il est possible d’exécuter ces processus de machine learning peut être Apache Kafka.

Avec KafkaDataSet (lecture) et KafkaOutputSequence (ecriture) il est possible d'avoir une bonne intégration entre @TensorFlow et @apachekafka et bâtir une architecture pour vos traitements de type #machinelearning ! Et bien sûr même pour la production #StrataData pic.twitter.com/g3tGI5wUHq

— Charly CLAIRMONT (@egwada) May 2, 2019

Ainsi le streaming devient la norme ! Même certains de nos clients nous demandent d’améliorer les processus afin qu’ils puissent être en temps réel (à faible latence) ! Ajouter à cela la capacité des éditeurs à améliorer les performances des solutions grâce à un important travail pour mieux tirer partie de la mémoire des machines (RAM), optimiser les échanges réseaux… Vous obtenez des solutions de plus en plus performantes grâce à une optimisation de plus en plus efficiente de l’exploitation de la mémoire (Libfabric, PMoF).

Je savais qu'il y avait le #NewSQL spécialement basé sur du #InMemory. Il apparaît que le #ComputingInMemory monte ! Et pour preuve "Persistant Memory" pourrait là aussi améliorer les performances. #StrataData pic.twitter.com/yLuLKHqJub

— Charly CLAIRMONT (@egwada) May 2, 2019

Toutes ces améliorations se retrouveront bientôt dans les plateformes de gestion de données et optimiseront les chaînes de valeur de traitement des données qu’elles supportent.

Ce Strata Data Conference 2019 aura confirmé l’explosion de l’offre de solutions pour gérer la données sous toutes ses formes ! Si en 2016 nous vous avions mis en avant les catalogues des données, en 2019 les acteurs sont maintenant en place. Cette exhaustivité de solutions aura le mérite de répondre aux nombreux cas d’utilisation tellement distincts de chaque entreprise.

A propos de l'auteur: cclairmont

Après un court passage par une startup dans les années 2000, Charly fonde Altic qui est ensuite devenue Synaltic. Passionné par l'urbanisation des systèmes d’information, l'innovation, la donnée, il a toujours défendu le logiciel libre et l'open source.