Mehrsprachige autoregressive Entitätenverknüpfung

Wir stellen mGENRE vor, ein sequenz-zu-Sequenz-System für das mehrsprachige Entitätenverknüpfungsproblem (Multilingual Entity Linking, MEL) – die Aufgabe, sprachspezifische Erwähnungen einer mehrsprachigen Wissensbasis (Knowledge Base, KB) zuzuordnen. Für eine Erwähnung in einer gegebenen Sprache prognostiziert mGENRE den Namen der Zielentität links-nach-rechts, Token für Token, in autoregressiver Weise. Die autoregressive Formulierung ermöglicht eine effektive Kreuzkodierung von Erwähnungszeichenfolge und Entitätsnamen, wodurch mehr Wechselwirkungen erfasst werden können als bei der herkömmlichen Skalarprodukt-Berechnung zwischen Erwähnungs- und Entitätsvektoren. Zudem ermöglicht sie eine schnelle Suche innerhalb einer großen KB, auch für Erwähnungen, die nicht in Erwähnungstabellen enthalten sind, und erfordert keine großen Vektorindizes. Während frühere MEL-Ansätze jeweils eine einzige Repräsentation pro Entität verwenden, vergleichen wir mit Entitätsnamen in so vielen Sprachen wie möglich, was die Nutzung sprachlicher Zusammenhänge zwischen Eingabesprache und Zielnamen erlaubt. Darüber hinaus behandelt mGENRE in einer Zero-Shot-Situation für Sprachen ohne jegliche Trainingsdaten die Zielsprache als latente Variable, die zur Vorhersagezeit marginalisiert wird. Dies führt zu einer Verbesserung der durchschnittlichen Genauigkeit um über 50 %. Wir belegen die Wirksamkeit unseres Ansatzes durch umfassende Evaluation, einschließlich Experimente an drei etablierten MEL-Benchmarks, bei denen mGENRE neue SOTA-Ergebnisse erzielt. Der Quellcode und vortrainierte Modelle sind unter https://github.com/facebookresearch/GENRE verfügbar.