Gemeinsames Lernen der Einbettung von Wörtern und Entitäten für die Namensentitätserkennung

Die Named Entity Disambiguation (NED) bezieht sich auf die Aufgabe, mehrere Erwähnungen benannter Entitäten in einem Dokument auf ihre korrekten Referenzen in einer Wissensbasis (KB) (z.B. Wikipedia) zu ordnen. In dieser Arbeit schlagen wir eine neuartige Einbettungsmethode vor, die speziell für NED entwickelt wurde. Die vorgeschlagene Methode bildet Wörter und Entitäten gemeinsam in den gleichen kontinuierlichen Vektorraum ab. Wir erweitern das Skip-Gram-Modell durch die Verwendung von zwei Modellen. Das KB-Graph-Modell lernt die Verwandtschaft der Entitäten unter Verwendung der Linkstruktur der Wissensbasis, während das Anchor Context-Modell darauf abzielt, Vektoren so auszurichten, dass ähnliche Wörter und Entitäten im Vektorraum nahe beieinander liegen, indem es KB-Anker und deren Kontextwörter nutzt. Durch die Kombination von Kontexten basierend auf der vorgeschlagenen Einbettung mit standardmäßigen NED-Merkmalsgrößen erreichten wir einen Stand-des-Nachrichten Genauigkeitswert von 93,1 % im Standard-CoNLL-Datensatz und 85,2 % im TAC 2010 Datensatz.请注意,"Stand des Nachrichten" 在这里可能是一个误译,正确的应该是 "Stand der Technik"(即“最先进的”或“最前沿的”)。因此,最后一句应该修正为:Durch die Kombination von Kontexten basierend auf der vorgeschlagenen Einbettung mit standardmäßigen NED-Merkmalsgrößen erreichten wir einen Stand-der-Technik Genauigkeitswert von 93,1 % im Standard-CoNLL-Datensatz und 85,2 % im TAC 2010 Datensatz.