DCoM : Un mappage de colonnes profond pour la détection de type de données sémantiques

La détection des types de données sémantiques constitue une tâche essentielle en science des données, en vue du nettoyage automatisé des données, de l’alignement de schémas, de la découverte de données, de la normalisation des types de données sémantiques et de l’identification des données sensibles. Les méthodes existantes reposent principalement sur des expressions régulières ou des recherches dans des dictionnaires, mais elles se révèlent peu robustes face aux données brutes ou inconnues, et sont limitées à un nombre très restreint de types de données sémantiques à prédire. Les approches basées sur l’apprentissage automatique actuelles extraient un grand nombre de caractéristiques manuellement conçues à partir des données, puis construisent des modèles tels que la régression logistique, les forêts aléatoires ou des réseaux de neurones à propagation avant. Dans cet article, nous proposons DCoM, une collection de réseaux de neurones profonds basés sur le traitement du langage naturel (NLP) à entrées multiples, conçue pour détecter les types de données sémantiques. Contrairement aux méthodes traditionnelles, DCoM prend directement en entrée les valeurs brutes des colonnes (ou instances) sous forme de texte, sans nécessiter d’extraction préalable de nombreuses caractéristiques. Nous avons entraîné DCoM sur un ensemble de 686 765 colonnes de données extraites du corpus VizNet, couvrant 78 types de données sémantiques distincts. Les résultats montrent que DCoM surpasse significativement les méthodes contemporaines sur le même jeu de données.