Désambiguïsation robuste des entités nommées dans le texte

La désambiguïsation des entités nommées dans les textes en langage naturel consiste à associer les mentions d’entités ambigües à des entités canoniques, telles que des personnes ou des lieux, enregistrées dans une base de connaissances comme DBpedia ou YAGO. Ce papier présente une méthode robuste pour la désambiguïsation collective, en exploitant le contexte fourni par les bases de connaissances et en introduisant une nouvelle forme de graphe de cohérence. Elle intègre les approches antérieures dans un cadre global combinant trois mesures : la probabilité a priori qu’une entité soit mentionnée, la similarité entre les contextes d’une mention et d’une entité candidate, ainsi que la cohérence globale entre les entités candidates pour l’ensemble des mentions. La méthode construit un graphe pondéré reliant mentions et entités candidates, puis calcule un sous-graphe dense qui approche le meilleur alignement conjoint entre mentions et entités. Les expérimentations montrent que la nouvelle méthode surpasse significativement les méthodes antérieures en termes de précision, tout en présentant un comportement robuste sur une large variété d’entrées.