CHOLAN: Ein modulares Ansatz für neuronale Entitätsverknüpfung auf Wikipedia und Wikidata

In diesem Artikel stellen wir CHOLAN vor, einen modularen Ansatz zur Zielgerichteten End-to-End-Entitätsverknüpfung (Entity Linking, EL) über Wissensbasen. CHOLAN besteht aus einer Pipeline zweier transformerbasierter Modelle, die sequenziell integriert werden, um die EL-Aufgabe zu erfüllen. Das erste Transformer-Modell identifiziert Oberflächenformen (Entitätsmentionen) in einem gegebenen Text. Für jede Mention wird ein zweites Transformer-Modell eingesetzt, um die Zielentität aus einer vordefinierten Liste möglicher Kandidaten zu klassifizieren. Das letztere Modell erhält eine erweiterte Kontextinformation, die aus dem Satz (d. h. dem lokalen Kontext) und aus der Entitätsbeschreibung aus Wikipedia gewonnen wird. Solche externen Kontexte wurden in bisherigen state-of-the-art-EL-Ansätzen nicht verwendet. Unsere empirische Studie wurde auf zwei bekannten Wissensbasen (nämlich Wikidata und Wikipedia) durchgeführt. Die empirischen Ergebnisse zeigen, dass CHOLAN state-of-the-art-Ansätze auf Standard-Datensätzen wie CoNLL-AIDA, MSNBC, AQUAINT, ACE2004 und T-REx übertrifft.