L’apport du ML au catalogage de données
Détection de types sémantiques dans les données tabulaires par apprentissage automatique à l’aide de données synthétiques
Voici une brève de l’article rédigé par notre docteur en intelligence artificielle Marc Chevallier. Pour lire l’intégralité, veuillez cliquer sur le bouton ci-dessous.
De nombreux outils de catalogage des données sont apparus grâce à l’accumulation massive de données désorganisées. Le but de ces outils va être de maximiser les possibilités de ré-usage des données afin de mieux les valoriser. Pour ce faire, il faut « connaître la donnée » pour pouvoir correctement la ranger et la retrouver, cette connaissance passe par l’usage d’un ensemble de méta-données décrivant la donnée. Cependant, une intervention humaine est nécessaire pour assurer un catalogage correct. Pour résoudre ce problème, il faut automatiser au maximum l’extraction des méta-informations des données.
Parmi ces informations, le type sémantique des données est particulièrement intéressant, car largement utiliser en data intégration. La plupart des outils de BI peuvent découvrir automatiquement quelques types sémantiques. Cette détection se fait classiquement à l’aide d’expressions régulières et de dictionnaires. Ces méthodes sont efficaces quand les données présentent des schémas réguliers et sont peu bruitées. Dans le cas contraire, la reconnaissance est difficile. Cette problématique a fait naître ces dernières années un nouveau courant de méthodes basées sur l’apprentissage artificiel.
Ces techniques vont essayer d’apprendre à partir de colonnes d’exemples à reconnaître les différents types sémantiques. Néanmoins, ces nouvelles méthodes ont besoin d’un large volume de données réel, ce qui limite l’usage à des types sémantiques pour lesquels beaucoup de données sont disponibles. Ainsi, une partie des travaux de R&D chez Synaltic visent à développer des méthodes basées sur l’apprentissage automatique pour identifier une plus grande variété de types sémantiques tout en minimisant le besoin de données réelles. C’est dans ce cadre que l’article « Semantic Type Detection in Tabular Data via Machine Learning Using Semi-synthetic Data » a été écrit et présenté à la conférence SoCPaR2022.
Sections commentaires non disponible.