Die Steigerung der Leistung bei der Entitätensverknüpfung durch die Nutzung unbeschrifteter Dokumente

Moderne Entitätsverknüpfungssysteme basieren auf großen Sammlungen von Dokumenten, die speziell für diese Aufgabe annotiert wurden (z.B. AIDA CoNLL). Im Gegensatz dazu schlagen wir einen Ansatz vor, der nur auf natürlichen Informationen zurückgreift: unannotierten Dokumenten und Wikipedia. Unser Ansatz besteht aus zwei Stufen. Zunächst erstellen wir für jede Erwähnung in einem unannotierten Dokument eine Kandidatenliste mit hoher Rückrufquote. Anschließend nutzen wir diese Kandidatenlisten als schwache Überwachung, um unser dokumentbasiertes Entitätsverknüpfungsmodell zu beschränken. Das Modell behandelt Entitäten als latente Variablen und lernt bei der Schätzung auf einer Sammlung von unannotierten Texten, Entitäten basierend sowohl auf dem lokalen Kontext jeder Erwähnung als auch auf der Kohärenz mit anderen Entitäten im Dokument auszuwählen. Der resultierende Ansatz erreicht vergleichbare Ergebnisse wie vollständig überwachte Systeme des aktuellen Standes der Technik in Standard-Testsets. Auch in der sehr herausfordernden Einstellung – wenn das System auf einem Testset getestet wird, das aus den Daten stammt, die zur Schätzung der überwachten Systeme verwendet wurden – nähert es sich deren Leistung an. Durch den Vergleich mit einer allein auf Wikipedia basierenden Schulung unseres Modells zeigen wir, dass die Modellierung unannotierter Dokumente vorteilhaft ist.