Entitätenverknüpfung durch explizite Erwähnungs-Erwähnungs-Koreferenzmodellierung

Die Lernung von Repräsentationen für Entitätsmentionen ist eine zentrale Komponente moderner Entity-Linking-Systeme, sowohl für die Generierung von Kandidaten als auch für die Vorhersage von Linkings. In diesem Paper präsentieren und analysieren wir empirisch einen neuen Trainingsansatz zur Lernung von Mention- und Entitätsrepräsentationen, der darauf basiert, minimale aufspannende Arboreszenzen (d. h. gerichtete aufspannende Bäume) über Mentionen und Entitäten innerhalb und über Dokumente hinweg zu konstruieren, um Coreferenzbeziehungen zwischen Mentionen explizit zu modellieren. Wir belegen die Wirksamkeit unseres Ansatzes durch signifikante Verbesserungen sowohl in der Recall-Rate bei der Kandidatengenerierung als auch in der Linking-Accuracy auf dem Zero-Shot Entity Linking-Datensatz und auf MedMentions, dem größten öffentlich verfügbaren biomedizinischen Datensatz. Zudem zeigen wir, dass unsere Verbesserungen bei der Kandidatengenerierung zu qualitativ hochwertigeren Re-Ranking-Modellen in nachgeschalteten Aufgaben führen, wodurch wir eine neue SOTA-Leistung in der Linking-Accuracy auf MedMentions erzielen. Schließlich demonstrieren wir, dass unsere verbesserten Mention-Repräsentationen auch effektiv für die Entdeckung neuer Entitäten mittels Cross-Document-Coreferenz sind.