Robuste Entitäts-Auflösung von Benennungen im Text

Die Entschärfung von benannten Entitäten in natürlicher Sprache ordnet Erwähnungen mehrdeutiger Namen kanonischen Entitäten wie Personen oder Orten zu, die in einer Wissensbasis wie DBpedia oder YAGO registriert sind. In diesem Artikel wird eine robuste Methode für die kollektive Entschärfung vorgestellt, die Kontextinformationen aus Wissensbasen nutzt und einen neuen Typ von Kohärenzgraphen einsetzt. Die Methode integriert frühere Ansätze in einen umfassenden Rahmen, der drei Maßstäbe kombiniert: die a-priori-Wahrscheinlichkeit, dass eine Entität erwähnt wird, die Ähnlichkeit zwischen dem Kontext einer Erwähnung und dem Kontext eines Kandidatenentitäten sowie die Kohärenz unter allen Kandidatenentitäten für alle Erwähnungen gemeinsam. Das Verfahren konstruiert einen gewichteten Graphen aus Erwähnungen und Kandidatenentitäten und berechnet einen dichten Teilgraphen, der die optimale gemeinsame Zuordnung von Erwähnungen zu Entitäten approximiert. Experimente zeigen, dass die neue Methode im Hinblick auf die Genauigkeit signifikant gegenüber vorherigen Ansätzen abschneidet und dabei eine robuste Leistung über eine Vielzahl unterschiedlicher Eingabedaten hinweg erzielt.