CAW-coref: Konjunktionssensitives Wortebenen-Referenzauflösung

Stand der Technik befindliche Coreference-Auflösungssysteme setzen für jedes Dokument mehrere Aufrufe von großen Sprachmodellen (LLM) voraus und sind daher für viele Anwendungsfälle (z. B. Informationsextraktion mit großen Korpora) prohibitiv teuer. Das führende systematische Wortniveau-Coreference-Verfahren (WL-coref) erreicht 96,6 % der Leistung von SOTA-Systemen, ist jedoch deutlich effizienter. In dieser Arbeit identifizieren wir einen häufig auftretenden, jedoch wichtigen Fehlerfall von WL-coref: die Behandlung von verbundenen Erwähnungen wie „Tom und Mary“. Wir präsentieren eine einfache, aber effektive Lösung, die die Leistung auf dem OntoNotes-Testset um 0,9 % F1 verbessert und die Lücke zwischen effizienten Wortniveau-Coreference-Verfahren und aufwändigen SOTA-Ansätzen um 34,6 % verringert. Unser Modell für conjunctionsensitive Wortniveau-Coreference (CAW-coref) sowie der zugehörige Quellcode sind unter https://github.com/KarelDO/wl-coref verfügbar.