Hadoop n'est plus le roi de la donnée...?

A l’annonce de la fusion entre Hortonworks et Cloudera, Charly Clairmont a ressenti tout un tas d’émotions. Choc, surprise, étonnement…il s’est donné le temps de la réflexion et nous livre aujourd’hui son avis sur l’annonce qui a secoué le secteur !

C’est quoi Hadoop ?

Hadoop demeure encore aujourd’hui le découpage entre stockage et calcul. Bien qu’Hadoop a démarré en 2006, avec une très forte adhérence entre HDFS et MapReduce, il est vite apparu très clair que les nombreux types de traitements qui s’exécutent sur une telle plateforme nécessitaient cette séparation là. Ce qui allait dessiner les nouvelles versions d’Hadoop.

C’est quoi Hadoop aujourd’hui ?

Aujourd’hui, il est certain que lorsque l’on parle d’Hadoop c’est bien d’un côté HDFS et de l’autre YARN dont on parle. Mais en 2018, douze ans après la naissance d’Hadoop, est-ce que ce dernier se résume simplement au stockage et aux calculs ? N’est-ce pas surtout un vibrant écosystème, dont a aussi émergé une pratique : le Big Data ? Et puis plus tard, de Data Lake ou Data Hub ?

Une annonce ! Quelle annonce ?

Cloudera et Hortonworks nous ont annoncé le 3 octobre dernier leur fusion à part égale ! Il s’agit de créer un mastodonte pour bien plus peser dans ce marché toujours aussi prometteur : la transformation digitale des organisations. Sans donnée pas de digitalisation ! En effet, avec cette future fusion c’est une valorisation boursière de plus de 5 milliards de dollars qui va être engendrée. A noter que le marché des big data serait de 200 milliards de dollars en 2020 quand rien que celui d’Hadoop représenterait 50 milliards de dollars. Les deux sociétés réunies c’est 720 millions de CA. Avec ces quelques chiffres il est fort simple de comprendre le but de cette fusion : créer un géant, qui comme l’a fait Hadoop à sa belle époque, donne le la dans « ce marché “de la donnée, du cloud, de l’IA et des nouveaux usages ».

Il est très important de noter que le terme « Hadoop » n’apparaît pas dans l’annonce ! Comme quoi nous sommes définitivement entrés dans l’ère « post-Hadoop » !

Les spéculations vont bon train

Une telle annonce a surpris tout le monde et nécessite certainement un commentaire de chacun, tant on est sous le choc. Beaucoup ont toutefois vite indiqué que ce rapprochement était inévitable. Quelque part, ces derniers ont sans doute raison, tant l’argent dépensé de part et d’autre pour faire avancer et promouvoir de telles technologies représente des sommes gigantesques.

Il est vrai que Cloudera et Hortonworks n’ont pas les mêmes approches à la fois dans leurs valeurs, leur modèle économique, et peut-être même sur le spectre de marché adressé.

Le slogan de l’annonce c’est « From Edge to AI« . Hortonworks a misé il y a un bon moment maintenant sur Apache Nifi. Il l’a intégré dans HDF et apporte une vraie solution quant au transport des données et à leur traitement au fil de l’eau. Hortonworks, c’est ce pari fou de l’open source, et les nombreux partenariats qui soutiennent ce mouvement ! Cloudera d’un autre côté une philosophie open core avec par conséquent de nombreuses briques propriétaires… même si ces dernières années une certaine ouverture (Impala, Kudu…) commençait à régner. Cloudera, c’est maintenant une plateforme orientée données et analytique visant le marché du Data Warehousing et du machine learning. Hortonworks est souvent plus poussé par une communauté et des décideurs technophiles quand Cloudera parle davantage au métier et aux décideurs sans doute plus attachés au fonctionnel.

Finalement en prenant en compte l’ensemble des éléments qui vient d’être cités, nous dirons que Cloudera et Hortonworks sont complémentaires et nous pourrions même nous interroger pourquoi est-ce qu’ils ne l’ont pas fait plus tôt ce #Merge !

Si ces aspects économiques et de complémentarité d’activité sont convainquants, nous voudrions comprendre pourquoi ces sociétés qui dominaient leur marché – même si elles avaient déjà beaucoup investi et n’arrivaient pas encore à l’équilibre… – et compte tenu des perspectives, n’ont pas voulu continuer en poursuivant sur cette coopération au sein de la communauté Apache et en se faisant la concurrence en dehors ? Ce marché se développe-t-il autant que l’on voudrait nous le faire croire ? Les derniers résultats et la remontée des cours de bourses des deux sociétés ces derniers mois confirment ces tendances du marché.

Le monde et le marché informatique a tout simplement changé en 13 ans et encore plus ces 3 dernières années. Le cloud et sa facilité à passer à l’échelle, le prix du stockage cloud, l’infrastructure de l’architecture des systèmes d’information bouleversée par les containers (Docker) et les orchestrateurs (Kubernetes) obligent tous les acteurs du marché à repenser leur offres.

Il n’est plus à démontrer la valeur qu’apporte des plateformes telles que Hadoop dans le management de la donnée et la transformation digitale des organisations. Et sans données pas d’IA ! Toutefois, les décideurs sont encore trop peu à comprendre la valeur qu’ils tireraient de l’exploitation de l’ensemble de leur données. Et pour ceux qui le comprennent, le Cloud est une solution tellement plus simple à mettre en œuvre ! Le service offert par Hadoop s’est vite retrouvé dans le Cloud d’abord chez Amazon – participe-t-il à l’effort de l’open source ? Microsoft, IBM, et d’autres quant à eux contribuent et proposent Hadoop dans leur cloud. Et même Google qui a abandonné MapReduce en interne a finalement proposé Hadoop en tant que service hébergé. Dans la même veine, Hadoop s’est aussi adapté à l’ensemble des stockages dans le cloud, facilitant le découplage du stockage dans le cloud et du calcul dans Hadoop, du calcul à la demande.

Les deux acteurs ont conçu des offres pour le Cloud. Il ne l’ont pas ignoré. Les deux acteurs ont investi dans les containers et viennent tous deux de faire des partenariats avec Red Hat pour avancer autour de Kubernetes, orchestrateur, qui devient la technologie standard pour le cloud Hybride où depuis peu, on nous parle de « True Private Cloud« ! Le rapprochement a donc pour but d’accélérer sur l’ensemble de ses sujets, et ce rapidement. Comment ce nouvel ensemble va-t-il évoluer face au ultra géant AWS, Azure, Google Cloud, Alibaba Cloud ? L’avenir nous le dira !

Il est aussi à noter que même si les acteurs du Cloud proposent des alternatives aux stockages et aux calculs propulsés par Hadoop par ces deux acteurs, peu d’acteurs (en dehors de Cloudera et Hortonworks) proposent une plate-forme Convergente et Hyper Unifiée pour la gestion de la donnée de bout en bout avec un catalogage fin de chaque donnée (quand on en a des masses ça vaudrait mieux), une traçabilité des traitements . Peu d’acteurs offrent une vision holistique et multicloud de la donnée ! Cloudera et Hortonworks : oui !

cloud computing merege cloudera hortonworks

L’open source coûte cher à produire

De nombreuses questions vont se poser quant aux solutions qui sont en double dans les deux distributions existantes. Avec en prévision 125 millions $ de réduction de coûts par an dû à la mutualisation, c’est certain que des projets vont trinquer (bon ils sont déjà open source ! Il y aura bien un ou deux mainteneurs qui…) !

Avec le Big Data qui est principalement conduit par l’open source, ce que sont aussi les orchestrateurs, ou même certaines technologies de la virtualisation… qu’annonce aujourd’hui cette fusion / rachat Cloudera / Hortonworks ? Fusion à laquelle il faut rajouter l’annonce de Google concernant le 9 millions que lui coûtent l’infrastructure pour « fabriquer » Kubernetes ! Nous n’allons pas dire que c’est l’open source qui coûte mais il est important de bien rappeler que construire un logiciel ça coûte cher et même avec la mutualisation soutenu par l’open source.

Même si Hortonworks pousse l’open source, il embrassait doucement mais surement le modèle open core bien maîtrisé et défendu par Cloudera. L’entité nouvelle va-t–elle abandonner l’open source ? Non ! La démarche ouverte d’Hortonworks sera « honorée » précise Tom Rilley le CEO de Cloudera et du nouvel acteur (je précise qu’Arun C. Murthy, CTO d’Hortonworks, devient CTO du nouvel ensemble).

Un travail important serait déjà entamé pour produire une plateforme unifiée (« Unity ») ! Et les versions existantes de CDH et HDP vont être supportées pendant les trois prochaines années.

Parce qu’il faut une conclusion

Finalement, cette fusion est certainement une bonne chose pour tout le monde ! C’est aussi une manière pour qu’Hadoop soit ce standard de fait. Il sera beaucoup simple de l’intégrer au reste du système d’information. Et la concurrence est bien là pour bousculer ce nouvel acteur. Et peut-être que nous de parlerons plus d’Hadoop, mais de ce système d’exploitation de la donnée longtemps cher à Hortonworks où vient s’exécuter l’ensemble des traitements et capable de stocker toutes les données des organisations !

Il faut bien garder en tête que les deux acteurs ont, ces deux dernières années, transformé leur modèle avec des solutions à très forte valeur ajoutée bien loin du stockage et du traitement distribué répondant à de vrais enjeux métier.

Nous leur souhaitons bonne chance !