Ce site stocke des cookies sur votre ordinateur. Nous les utilisons afin de personnaliser votre expérience de navigation ainsi que pour des analyses d'audience.
Il nous avait caché ça ! Nous sommes très fiers que notre collaborateur et collègue Horacio Lassey ait participé à la dernière édition du MiXiT en tant que speaker !
Ingénieur passionné par la data, il partage souvent son amour des 1 et des 0 (Hadoop User Group, MixIT, ITogo Conf'). Membre de la team Data, rien ne le détourne d'un ordinateur si ce n'est sa raquette de tennis !
De nombreux outils de catalogage des données sont apparus grâce à l’accumulation massive de données désorganisées. Le but de ces outils va être de maximiser les possibilités de ré-usage des données afin de mieux les valoriser. Pour ce faire, il faut « connaître la donnée » pour pouvoir correctement la ranger et la retrouver, cette connaissance passe par l’usage d’un ensemble de méta-données décrivant la donnée. Cependant, une intervention humaine est nécessaire pour assurer un catalogage correct. Pour résoudre ce problème, il faut automatiser au maximum l’extraction des méta-informations des données.
Parmi ces informations, le type sémantique des données est particulièrement intéressant, car largement utiliser en data intégration. La plupart des outils de BI peuvent découvrir automatiquement quelques types sémantiques. Cette détection se fait classiquement à l’aide d’expressions régulières et de dictionnaires. Ces méthodes sont efficaces quand les données présentent des schémas réguliers et sont peu bruitées. Dans le cas contraire, la reconnaissance est difficile. Cette problématique a fait naître ces dernières années un nouveau courant de méthodes basées sur l’apprentissage artificiel.
Ces techniques vont essayer d’apprendre à partir de colonnes d’exemples à reconnaître les différents types sémantiques. Néanmoins, ces nouvelles méthodes ont besoin d’un large volume de données réel, ce qui limite l’usage à des types sémantiques pour lesquels beaucoup de données sont disponibles. Ainsi, une partie des travaux de R&D chez Synaltic visent à développer des méthodes basées sur l’apprentissage automatique pour identifier une plus grande variété de types sémantiques tout en minimisant le besoin de données réelles. C’est dans ce cadre que l’article « Semantic Type Detection in Tabular Data via Machine Learning Using Semi-synthetic Data » a été écrit et présenté à la conférence SoCPaR2022.
L’intégration de données trouve une certaine complexité dans la manipulation d’un grand nombre de sources de données, et d’API. Ici, nous avons cherché à simplifier l’appropriation de la configuration des API OAuth2 de Microsoft Azure pour Exchange Online.
Synaltic se tient à vos côtés pour vous aider dans la mise en œuvre de vos projets d’intégration de données avec Talend.
Sections commentaires non disponible.