HyperAIHyperAI

Command Palette

Search for a command to run...

DCoM : Un mappage de colonnes profond pour la détection de type de données sémantiques

Subhadip Maji Swapna Sourav Rout Sudeep Choudhary

Résumé

La détection des types de données sémantiques constitue une tâche essentielle en science des données, en vue du nettoyage automatisé des données, de l’alignement de schémas, de la découverte de données, de la normalisation des types de données sémantiques et de l’identification des données sensibles. Les méthodes existantes reposent principalement sur des expressions régulières ou des recherches dans des dictionnaires, mais elles se révèlent peu robustes face aux données brutes ou inconnues, et sont limitées à un nombre très restreint de types de données sémantiques à prédire. Les approches basées sur l’apprentissage automatique actuelles extraient un grand nombre de caractéristiques manuellement conçues à partir des données, puis construisent des modèles tels que la régression logistique, les forêts aléatoires ou des réseaux de neurones à propagation avant. Dans cet article, nous proposons DCoM, une collection de réseaux de neurones profonds basés sur le traitement du langage naturel (NLP) à entrées multiples, conçue pour détecter les types de données sémantiques. Contrairement aux méthodes traditionnelles, DCoM prend directement en entrée les valeurs brutes des colonnes (ou instances) sous forme de texte, sans nécessiter d’extraction préalable de nombreuses caractéristiques. Nous avons entraîné DCoM sur un ensemble de 686 765 colonnes de données extraites du corpus VizNet, couvrant 78 types de données sémantiques distincts. Les résultats montrent que DCoM surpasse significativement les méthodes contemporaines sur le même jeu de données.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp