Oct 27

Faire un job ETL avec Apache Spark (Partie 1)

Apache Spark est un framework de data processing qui permet de traiter de gros volumes de données. Spark se charge de distribuer le calcul sur plusieurs machines en utilisant principalement les mémoires vives (RAM). Le projet a été initié par Matei Zaharia dans le laboratoire AMPLAB de l’université de Berkeley en 2009 avant d’être confié à la fondation Apache. Matei est actuellement le CTO de Databricks, la société commerciale derrière Apache Spark.
Spark est l’un des projets les plus actifs de la fondation Apache tous domaines confondus (pas uniquement dans la branche Big Data). Spark a été développé pour pallier aux manquements suivants de MapReduce :

Quel que soit le problème à résoudre il faut le modéliser en une succession d’opérations Map et Reduce (ce qui s’avère difficile pour certains cas d’utilisation, voire impossible à utiliser)
Lors de différentes phases de Map et Reduce, les résultats intermédiaires sont écrits sur le système de fichier HDFS. Les accès disques étant généralement plus coûteux, cela introduit de la latence dans les traitements MapReduce.

Spark corrige ces manquements en utilisant la mémoire vive plutôt que le système de fichier HDFS, tout en offrant beaucoup plus d’opérations que MapReduce (MapReduce n’offre que 2 opérations : Map() et Reduce()) mais aussi il est plus complet que ce dernier. Spark permet de faire, en outre, les traitements batch, du streaming, du calcul de graphe, du datamining et aussi du traitement SQL. Le Data Engineer peut utiliser Apache Spark pour faire ses jobs ETL et le Data Scientist peut aussi faire ses modèles sur la même plateforme.
Dans ce billet je vais me concentrer sur les fonctionnalités ETL de Spark.

Spark Core est basé sur les collections immutables, les RDD (Resilient Distributed Dataset). Les premières versions de Spark étaient basées sur les API du Spark Core qui donnaient des performances différentes suivant les langages de programmation utilisés. Avec le projet Tungsten, dans la version 2 de Spark, on voit apparaître des notions de dataframe et de dataset, qui est une surcouche intermédiaire qui permet d’avoir des performances uniformes, quel que soit le langage.
Un programme Spark s’exécute comme une suite de processus indépendants coordonnés par un objet SparkContext du main program (ou driver program). Le SparkContext dans le mode déploiement en cluster se connecte à Cluster manager qui, lui, alloue les ressources (CPU, RAM etc ). Une fois connecté au ressource manager le sparkContext acquiert des « executors » sur les machines du cluster qui font le calcul distribué et aussi stockent les données de votre application.

Une application Spark peut tourner en 3 modes :

en mode local (permet d’exécuter Spark sur une machine et peut utiliser les cœurs de machine pour du multi-threading)
en mode standalone (utilise dans ce cas un gestionnaire de ressources internes incorporé à Spark)
en mode cluster (avec un gestionnaire de ressources comme Yyarn sur Hadoop ou avec Mesos)

J’ai choisi de faire un développement en local avec du Scala pour me familiariser avec l’environnement Spark et me départir des contraintes de l’installation d’un cluster. Pardon ? Comment ? Si je m’y connais en Scala ? Non du tout, sinon ce ne serait pas drôle ! Je vais donc utiliser Intellij. Pour configurer votre environnement suivez ce tutoriel.
Les API Scala de Spark sont moins verbeux que les API Java. Je vais procéder à tâtons pour montrer les grands principes de l’ETL.

Fasten your seatbelt, we are taking off to data engineering world with Apache Spark !

Pour la configuration de votre projet voici un exemple de fichier sbt pour exécuter les programmes Scala de Spark :

name := "hello-spark" scalaVersion := "2.10.4" libraryDependencies += "org.apache.spark" %% "spark-sql" % "2.2.0"

Pour illustrer les traitements de données nous allons utiliser 2 fichiers csv suivants :

Essayons dans un premier temps de lire le premier fichier customers.csv en utilisant les sessions Spark :

import org.apache.spark.sql.SparkSession
object SparkDf {

def main(args: Array[String]): Unit = {

val spark = SparkSession

.builder() .master("local[*]") // configuration de spark en mode local .appName("Spark SQL basic example")// nom de l'application .config("spark.some.config.option", "some-value")// on peut ajouter des paramètres spark .getOrCreate()

val customer = spark.read

.csv("C:\\projet\\data\\customer.csv") customer.show()

}

On arrive à lire le fichier mais les colonnes se sont pas bien délimitées. On va ajouter des paramètres supplémentaires pour bien prendre en compte les paramètres csv :

import org.apache.spark.sql.SparkSession

object SparkDf

{def main(args: Array[String]): Unit = {

val spark = SparkSession

val customer = spark.read

.option("header","true") .option("inferSchema","true") .option("delimiter", ";") .csv("C:\\projet\\data\\customer.csv")

customer.show()

}

Ensuite on tente de faire une transformation en joignant les fichiers customer.csv et state.csv.

import org.apache.spark.sql.SparkSession
object SparkDf {

def main(args: Array[String]): Unit = {

val spark = SparkSession

val customer = spark.read

.option("header","true") .option("inferSchema","true") .option("delimiter", ";") .csv("C:\\projet\\data\\customer.csv")

val state = spark.read

.option("header","false") .option("inferSchema","true") .option("delimiter", ";") .csv("C:\\projet\\data\\state.csv")
state.join(customer, customer("idState") === state("_c0")).show()// jointure entre le fichier state et customer

}

Sur ces exemples on se rend compte que le code n’est pas verbeux et aussi adapté au traitement de données. Le développeur peut ainsi profiter de la gestion de la montée en charge qu’offre un cluster Spark. Dans un autre billet on pourra poursuivre l’exercice en se connectant à d’autres sources de données et en chargeant les données dans une source de destination.
(A suivre)

Horacio Lassey

Crédit Photo : Designed by Freepik

A propos de l'auteur: horacio

Ingénieur passionné par la data, il partage souvent son amour des 1 et des 0 (Hadoop User Group, MixIT, ITogo Conf'). Membre de la team Data, rien ne le détourne d'un ordinateur si ce n'est sa raquette de tennis !

Articles Suggérés

L’apport du ML au catalogage de données

Détection de types sémantiques dans les données tabulaires par apprentissage automatique à l’aide de données synthétiques

Voici une brève de l’article rédigé par notre docteur en intelligence artificielle Marc Chevallier. Pour lire l’intégralité, veuillez cliquer sur le bouton ci-dessous.

De nombreux outils de catalogage des données sont apparus grâce à l’accumulation massive de données désorganisées. Le but de ces outils va être de maximiser les possibilités de ré-usage des données afin de mieux les valoriser. Pour ce faire, il faut « connaître la donnée » pour pouvoir correctement la ranger et la retrouver, cette connaissance passe par l’usage d’un ensemble de méta-données décrivant la donnée. Cependant, une intervention humaine est nécessaire pour assurer un catalogage correct. Pour résoudre ce problème, il faut automatiser au maximum l’extraction des méta-informations des données.

Parmi ces informations, le type sémantique des données est particulièrement intéressant, car largement utiliser en data intégration. La plupart des outils de BI peuvent découvrir automatiquement quelques types sémantiques. Cette détection se fait classiquement à l’aide d’expressions régulières et de dictionnaires. Ces méthodes sont efficaces quand les données présentent des schémas réguliers et sont peu bruitées. Dans le cas contraire, la reconnaissance est difficile. Cette problématique a fait naître ces dernières années un nouveau courant de méthodes basées sur l’apprentissage artificiel.

Ces techniques vont essayer d’apprendre à partir de colonnes d’exemples à reconnaître les différents types sémantiques. Néanmoins, ces nouvelles méthodes ont besoin d’un large volume de données réel, ce qui limite l’usage à des types sémantiques pour lesquels beaucoup de données sont disponibles. Ainsi, une partie des travaux de R&D chez Synaltic visent à développer des méthodes basées sur l’apprentissage automatique pour identifier une plus grande variété de types sémantiques tout en minimisant le besoin de données réelles. C’est dans ce cadre que l’article « Semantic Type Detection in Tabular Data via Machine Learning Using Semi-synthetic Data » a été écrit et présenté à la conférence SoCPaR2022.

Lire l’article

Authentification MS Office 365 Exchange OAuth2 IMAP avec Talend ESB

Au cours des derniers mois, Microsoft a progressivement déprécié et désactivé l’authentification basique pour les protocoles Microsoft Exchange Online tels que POP et IMAP, SMTP.

Il est donc urgent de passer à la nouvelle authentification moderne, basée sur OAuth 2.0. A l’heure où sort ce post, vous devez déjà avoir subi des troubles pour permettre à vos applications tiers de collaborer avec les solutions IMAP, POP, SMTP de Microsoft Exchange Online. Cela semble être un changement simple, mais il s’est avéré gênant d’un point de vue de la configuration dans la pratique à certains points.

Tout comme pour Log4Shell, il nous est apparu utile de documenter cette évolution des API d’Authentification de Microsoft et vous faciliter leur mise en œuvre.

Cet article de blog est utile pour tous ceux qui s’occupent de l’accès programmatique aux e-mails en utilisant les API Java javax.mail ou qui utilisent respectivement au sein de leurs flux Talend DI ou ESB les composants tPop, ou cMail pour écouter les e-mails sur IMAP pour les boîtes aux lettres Microsoft Office 365 Exchange Online. Nous présentons l’accès programmatique, les configurations tant du point de vue Azure que de celui de Talend ESB.

REMARQUE : Ce guide couvre le flux Client Credentials Grant, généralement utilisé pour la communication de machine à machine sans interaction avec l’utilisateur.

ÉTAPE 1 – Enregistrer / configurer l’application dans Azure

L’application Azure gère l’identité et l’interface d’accès aux boîtes mails, auxquelles nous voulons accéder à partir d’applications, ici nous nous intéressons à Java ou Talend en utilisant une authentification moderne avec le flux OAuth2 Client Credentials.

REMARQUE : Il s’agit d’un guide pour la mise en place du flux d’octroi d’accréditations client uniquement, qui est généralement utilisé pour la communication de machine à machine, sans interaction avec l’utilisateur.

Pourquoi ?

Cette configuration vous permet d’obtenir un jeton d’accès en utilisant le flux d’octroi des informations d’identification du client OAuth2 pour votre application enregistrée. Ce jeton d’accès est utilisé comme mot de passe pour la connexion IMAP par la suite. OAuth2 est une norme largement répandue, assez complexe et quelque peu écrasante, avec beaucoup de choses à comprendre dans son intégralité. Cependant, pour ce cas d’utilisation, vous n’avez pas besoin de comprendre les détails. Nous avons simplement besoin du clientId, du clientSecret ou du certificat, et du nom du locataire Azure ou du tenantId.

1. Créer l’application

2. Ajoutez l’autorisation IMAP.AccessAsApp requise.

Depuis Autorisations API, ajoutez l’autorisation IMAP.AccessAsApp. Vous pouvez la trouver sous APIs votre organisation uses > Office 365 Exchange Online.

Comment trouver les autorisations Microsoft Office 365 Exchange

Azure API Permision

REMARQUE : Cette autorisation nécessite le consentement de l’administrateur. Si vous n’êtes pas l’administrateur, contactez votre administrateur et demandez-lui son accord. Voici à quoi cela devrait ressembler :

Autorisation Microsoft Azure IMAP.AccessAsApp

3. Créer le secret du client ou le certificat du client

IMAP Application secret

Pour se connecter à l’enregistrement de cette application via OAuth2, un secret client ou un certificat client (clé publique) est nécessaire.

Pour des raisons de simplicité, nous utilisons ici un secret client.

REMARQUE : Faites attention à la date d’expiration du secret du client ! Ou définissez une période personnalisée. Lorsque la clé expire, votre application client ne pourra plus se connecter.

REMARQUE : Copiez et stockez le secret du client juste après sa création dans un endroit sûr, par exemple, un stockage de clés sécurisé. Vous n’y aurez plus accès.

ÉTAPE 2 – Ajouter les autorisations de la boîte aux lettres à l’aide de la commande PowerShell

C’est la partie la plus compliquée en effet vous devez avoir un administrateur Azure avec vous ou avoir les droits d’administration sur Azure afin d’exécuter les étapes qui suivent. Nous espérons que vous avez les coordonnées de l’administrateur Azure de votre entreprise, au cas où vous ne le seriez pas.

Ensuite, nous allons créer un servicePrincipal et exécuter Add-MailboxPermission pour permettre l’accès à la boîte mail… Ce n’est possible qu’en exécutant “un peu de magie PowerShell”. Pour cela, nous avons besoin d’un Object ID spécial situé à des endroits très différents. Les deux endroits contiennent un Object ID, mais ils sont différents. Cela génère une certaine confusion et par voie de conséquence de la complexité. Il semble que beaucoup n’aient pas compris dès le départ. Nous allons essayer de rendre les choses plus claires.

Nous allons avoir besoin de l’Application (client) ID de la page d’aperçu de l’application, s’il vous plaît IGNOREZ l’Object ID dans cette section. Par contre, récupérez bien l’ENTERPRISE_OBJECT_ID à cet emplacement indiqué ci-dessous :L’ENTERPRISE Object ID peut être trouvé sous Enterprise applications > All applications > Tapez le nom de l’application dans le champ de recherche :

Obtenir l'Objet Id de l'application

Ne tenez pas compte de l’ID d’objet barré en rouge dans la vue d’ensemble de l’application, mais obtenez plutôt l’ID d’objet d’entreprise, à partir du point d’entrée des applications d’entreprise dans Azure.

C’est parti pour les commandes “magiques” PowerShell :

# Enregistrer le ServicePrincipal de l'application Azure AD dans Exchange :
New-ServicePrincipal -AppId "<APPLICATION_ID>" -ServiceId "<ENTERPRISE_OBJECT_ID>"
# Définir le nom d'affichage du ServicePrincipal nouvellement créé.
Set-ServicePrincipal -Identity "<ENTERPRISE_OBJECT_ID>" -DisplayName "<APP_DISPLAY_NAME>"
# Donnez au ServicePrincipal de l'application l'accès à une boîte mails : 
# Add-MailboxPermission -Identity "<EMAIL_ADDRESS>" -User Add-MailboxPermission-Identity "<EMAIL_ADDRESS>" -User "<ENTERPRISE_OBJECT_ID>" -AccessRightsFullAccess

Vous devrez peut-être d’abord installer certains modules PowerShell pour exécuter ces commandes. La description de Microsoft se trouve ici :

https://learn.microsoft.com/fr-fr/exchange/client-developer/legacy-protocols/how-to-authenticate-an-imap-pop-smtp-application-by-using-oauth#register-service-principals-in-exchange

https://www.limilabs.com/blog/oauth2-client-credential-flow-office365-exchange-imap-pop3-smtp

ÉTAPE 3 – L’heure des tests avec Talend ESB !

Pour pouvoir concevoir vos flux d’intégration avec Talend ESB qui dialoguent avec IMAP, POP, SMTP il vous faut des pré-requis :

Microsoft Authentication Library (MSAL) for Java
- https://github.com/AzureAD/microsoft-authentication-library-for-java
Apache Camel Mail Microsoft Oauth (camel-mail-microsoft-oauth)
- https://camel.apache.org/components/next/others/mail-microsoft-oauth.html
Javax.Mail 1.6.7
- https://mvnrepository.com/artifact/com.sun.mail/jakarta.mail/1.6.7

REMARQUE : Vous aurez aussi besoin de d’autres librairies java dont dépendent celles qui sont listées plus haut.

REMARQUE : Ici, nous avons choisi de réaliser ce test avec Talend ESB 8.0.1 (avec JAva 11)

Enregistrer le bean « exchangeAuthenticator » avec les différents paramètre attendu par l’authentification OAuth2 de Microsoft Azure pour les mails.

Talend ESB Studio Enregistrer un Bean

le code généré ressemble à celui-ci pour l’enregistrement du bean :

@BindToRegistry("exchangeAuthenticator")
public MicrosoftExchangeOnlineOAuth2MailAuthenticator exchangeAuthenticator(){
    return new MicrosoftExchangeOnlineOAuth2MailAuthenticator(<<tenantId>>, <<clientId>>, <<clientSecret>>, <<emailAddress>>);
}

Il vous reste alors à configurer le cMail

Talend ESB Studio Flux cMail Lire mail

from("imaps://outlook.office365.com:993"
                    +  "?authenticator=#exchangeAuthenticator"
                    +  "&mail.imaps.auth.mechanisms=XOAUTH2"
                    +  "&debugMode=true"
                    +  "&delete=false")

Et voilà !

Talend ESB Studio Flux mail complet

L’intégration de données trouve une certaine complexité dans la manipulation d’un grand nombre de sources de données, et d’API. Ici, nous avons cherché à simplifier l’appropriation de la configuration des API OAuth2 de Microsoft Azure pour Exchange Online.

Synaltic se tient à vos côtés pour vous aider dans la mise en œuvre de vos projets d’intégration de données avec Talend.

REMARQUE : vous pouvez aussi avoir besoin de mettre en œuvre l’authentification OAuth2 dans le cadre de vos flux DI avec un composant tPop. Vous trouverez ici toutes les informations utiles :Configurer une application Microsoft Azure pour les protocoles POP et IMAP
https://help.talend.com/r/fr-FR/8.0/pop/configuring-an-oauth2-application-for-pop-and-imap