Apprentissage actif amélioré par graphe pour la résolution d'entités multi-sources
Les méthodes supervisées de résolution d'entités reposent sur des paires d'enregistrements étiquetés afin d'apprendre les schémas de correspondance entre deux ou plusieurs sources de données. L'apprentissage actif permet de réduire l'effort d'étiquetage en sélectionnant uniquement les paires les plus informatives pour l'étiquetage. Les méthodes d'apprentissage actif existantes pour la résolution d'entités ciblent toutes des scénarios de correspondance à deux sources, tout en ignorant les signaux propres aux environnements multi-sources, tels que ceux présents dans le Web des données. Dans cet article, nous proposons ALMSER, une méthode d'apprentissage actif renforcée par graphe pour la résolution d'entités multi-sources. À notre connaissance, ALMSER est la première méthode de résolution d'entités fondée sur l'apprentissage actif spécifiquement conçue pour les scénarios multi-sources. ALMSER exploite le riche graphe de correspondance présent dans les environnements multi-sources afin de sélectionner des paires d'enregistrements informatives. En outre, ce graphe de correspondance est utilisé pour générer des données d'entraînement complémentaires. Nous évaluons notre méthode sur cinq tâches de correspondance multi-sources présentant différentes caractéristiques de profilage. Les résultats expérimentaux montrent qu'exploiter les signaux issus du graphe conduit à de meilleurs résultats, mesurés par le score F1, par rapport aux méthodes d'apprentissage actif utilisant des stratégies de requête basées sur la marge ou sur le comité, sur l'ensemble des tâches étudiées.