Talend vous offre une solution cloud simple pour toutes vos intégrations de données : elle se nomme « Pipeline Designer ». Petit tour d’horizon avec nous!
Le Pipeline Designer est un outil pour la conception visuelle de flux de traitement de données qui s’exécute au sein Talend Cloud. Pas de studio à installer sur son poste, juste une url à ouvrir depuis son navigateur web . Il simplifie la création de flux de données de bout en bout.
Ce nouvel outil permet :
-
De concevoir des traitements de données tant en batch qu’en streaming.
-
D’intégrer des données structurées ou non structurées.
-
De repenser les traitements de données avec les dernières technologies hybrides et multi-cloud.
- Il offre la possibilité de connecter facilement aux principales sources de données comme Amazon S3, les bases de données, Apache Kafka, … etc.
1. Les principales caractéristiques de ‘’Pipeline Designer’’
1.1 Aperçu des données en direct :
Talend Pipeline Designer arrive après d’autres solutions comme Apache Nifi, ou encore Streamset. Il souhaite ainsi offrir une expérience utilisateur renouvelée, à la fois par rapport à son Studio, et à la fois face à la concurrence. Ainsi, il dispose d’une fonctionnalité de prévisualisation des données qui améliore considérablement la productivité. En effet, les changements sur les données sont visibles en temps réel à chaque étape du processus de transformation.
Par exemple on voit bien les résultats du composant « FieldSelector » dans le Data Preview :
Désormais avec le Pipeline Designer vous n’avez plus besoin de compiler, déployer et exécuter le pipeline pour voir à quoi ressemblent les données.
Cliquez sur n’importe quel processeur de votre pipeline et consultez les données avant et après la transformation pour vous assurer que les données en sortie correspondent exactement à ce que vous recherchez : le temps de développement se trouve considérablement réduit. Il y a de grandes chances que la durée des projets le soit tout autant.
1.2 Personnalisation de votre pipeline en utilisant le langage Python :
Si vous avez besoin de personnaliser un flux, vous pouvez facilement l’étendre à l’aide d’un composant dans lequel vous pouvez coder en Python afin de procéder à des transformations ou des enrichissements bien plus complexes.
2. Connections et Datasets
Sur l’interface de Pipeline Designer, dans le menu de gauche, on retrouve l’onglet “CONNECTIONS”. C’est ici que nous pouvons créer et gérer les connexions aux systèmes sur lesquels nos données sont stockées y compris les data-lake, les bases de données, etc.
Au sein de l’onglet ‘’DATASETS’’, nous pouvons créer et gérer les différents jeux de données utiles à la réalisation de nos traitements. Il s’agît des collections de données liées à une connexion : des tables de base de données, fichiers, etc.
3. Remote Engine pour les exécutions :
Talend Cloud offre aussi la possibilité de configurer manuellement un “Remote-engine” installé localement pour ‘’Pipeline Designer’’ à l’aide de scripts d’installation fournis.
Cet outil vous permet d’exécuter les pipelines sur vos propres réseaux (internes) ou en cloud. Ici vous pourrez noter que Talend Pipeline Designer, et plus largement Talend Cloud, répondent aux nouveaux enjeux du Cloud Hybrid.
Pour ajouter un ‘’Remote-engine’’, il faut à présent vous rendre sur le service “Management Console” vous allez d’abord passer à l’onglet « MOTEURS » dans le menu à gauche et cliquer ensuite sur ‘’Ajouter’’ puis sur ‘’Moteur distant pour les Pipelines’’.
Finalement, donnez un nom au ‘’Remote-Engine’’ et Sauvegardez. Vous observerez ainsi que le ‘’Remote-engine’’ a un statut ‘’Non lié’’ pour l’instant.
Avant de commencer le processus d’installation manuelle, il y’ a certains prérequis : l’utilitaire ‘’Docker’’ doit être installée sur la machine qui va héberger le ‘’Remote-Engine’’. Ce dernier devant être exécuté en tant que conteneur ‘’Docker’’.
‘’Docker’’, qu’est-ce que c’est ? :
Avant de parler de docker, il est indispensable de parler de conteneur.
On peut imaginer un conteneur comme une sorte de boite qui va être complètement isolée du système d’exploitation, c’est une boite dans laquelle vous allez pouvoir installer toutes les librairies dont a besoin votre application pour fonctionner et vous allez aussi installer votre application.
Les containers sont proches des machines virtuelles, mais présentent un avantage important : ils sont légers, et comme nous venons de le dire, ils isolent les processus qui y sont exécutés du système d’exploitation de la machine où ils sont lancés.
Docker est un logiciel libre Open Source qui permet d’automatiser le déploiement d’applications. Il peut tout autant être considéré telle une plateforme de virtualisation par container qui va permettre de concevoir, tester et déployer des applications.
Revenons à notre installation, les scripts d’installation du Remote Engine du Pipeline Designer doivent être sauvegardés sur la même machine où l’on a précédemment déployé Docker.
Remarque : Il faut récupérer les scripts d’installation depuis la page de téléchargement du portail Talend en fonction du système d’exploitation de la machine.
Vous devrez éditer le fichier d’environnement afin que le système d’exploitation configure correctement le ‘’Remote-engine’’ pour votre environnement spécifique :
- Vérifiez que la valeur du paramètre « ACCEPT_EULA » soit fixée à ‘’Y’’ afin d’accepter la licence EULA du moteur.
- Cette étape est obligatoire pour pouvoir lancer le “Remote Engine for Pipelines”.
- Enregistrez les modifications dans le fichier «.env »
- Exécutez la commande suivante pour lancer le fichier exécutable :
./pipeline-remote-engine.sh start -r <region> -k <pre_authorized_key>
• <region> correspond à la région de votre compte Talend Cloud.
• <pre_authorized_key> correspond au “PreAuthorizedKey / token” que vous avez précédemment copié.
Dans notre cas la région c’est « eu ».
Maintenant, l’instance ‘’Remote-Engine’’ est configuré et en cours d’exécution
La réussite du processus peut se confirmer dans le management console cloud par la présence, et donc le lien, du ‘’remote-engine’’.
Ensuite, on peut utiliser le remote-Engine pour créer un nouveau profil d’exécution.
Vous donnez un nom pour le nouveau profil d’exécution, et choisissez un nombre de threads. Avec la configuration avancée vous pouvez ajouter des paramètres spécifiques comme, par exemple, allouer de la mémoire supplémentaire pour le profil d’exécution.
Enfin, vous pouvez exécuter les pipelines sur le nouveau profil.
Profitez-en: Talend vous propose une version d’essai gratuite du produit pendant 14 jours pour le tester.
Synaltic est partenaire Talend depuis les débuts. Nous saluons l’arrivée de ce nouvel outil, qui peut réellement libérer des contraintes liées à l’installation de l’environnement de développement sur chaque poste utilisateur. Ici, il ne faut qu’un navigateur ! De plus, les différents développeurs et administrateurs peuvent se connecter à Talend Cloud pour gérer entièrement leur projet de traitements de données.
Avec Pipeline Designer c’est autant des traitements batch que des traitements streaming que vous allez pouvoir gérer en quelques clics. Intéressé.e.s? Contactez-nous!
Image: lebigdata