ColNet : Intégration des sémantiques des tableaux web pour la prédiction du type de colonne

L'annotation automatique des types de colonnes avec des concepts de base de connaissances (KB) est une tâche cruciale pour acquérir une compréhension de base des tableaux web. Les méthodes actuelles s'appuient soit sur les métadonnées des tableaux, comme le nom des colonnes, soit sur les correspondances d'entités des cellules dans la base de connaissances (KB), et peuvent échouer à traiter les tableaux web en expansion avec des informations métadonnées incomplètes. Dans cet article, nous proposons un cadre d'annotation de type de colonne basé sur un réseau neuronal nommé ColNet, capable d'intégrer le raisonnement et la recherche dans la base de connaissances (KB) avec l'apprentissage automatique et pouvant former automatiquement des réseaux neuronaux convolutifs pour la prédiction. Le modèle de prédiction prend non seulement en compte la sémantique contextuelle au sein d'une cellule à l'aide de représentations lexicales, mais intègre également la sémantique d'une colonne en apprenant des caractéristiques locales à partir de plusieurs cellules. La méthode est évaluée avec DBPedia et deux jeux de données différents de tableaux web, T2Dv2 provenant du Web général et Limaye provenant des pages Wikipedia, et atteint une performance supérieure aux approches les plus avancées actuellement disponibles.