Amélioration des performances de liaison d'entités en exploitant les documents non étiquetés

Les systèmes modernes de liaison d'entités s'appuient sur de grandes collections de documents spécifiquement annotés pour cette tâche (par exemple, AIDA CoNLL). En revanche, nous proposons une approche qui exploite uniquement des informations naturellement présentes : des documents non étiquetés et Wikipédia. Notre approche se compose de deux étapes. Premièrement, nous construisons une liste à forte rappel de candidats entités pour chaque mention dans un document non étiqueté. Deuxièmement, nous utilisons ces listes de candidats comme supervision faible pour contraindre notre modèle de liaison d'entités au niveau du document. Le modèle traite les entités comme des variables latentes et, lorsqu'il est estimé sur une collection de textes non étiquetés, apprend à choisir les entités en s'appuyant à la fois sur le contexte local de chaque mention et sur la cohérence avec les autres entités du document. L'approche résultante rivalise avec les systèmes d'avant-garde entièrement supervisés sur des ensembles de tests standard. Elle approche également leurs performances dans un cadre très exigeant : lorsque testée sur un ensemble de tests tiré des données utilisées pour estimer les systèmes supervisés. En comparant notre modèle formé uniquement avec Wikipédia, nous démontrons que la modélisation des documents non étiquetés est bénéfique.