Lernen verteilter Darstellungen von Texten und Entitäten aus einer Wissensbasis

Wir beschreiben ein neuronales Netzwerkmodell, das verteilte Repräsentationen von Texten und Wissensbasis-Entitäten (Knowledge Base, KB) gemeinsam lernt. Angesichts eines Textes in der Wissensbasis trainieren wir unser vorgeschlagenes Modell, um Entitäten vorherzusagen, die für den Text relevant sind. Unser Modell ist generisch konzipiert und kann verschiedene NLP-Aufgaben mit Leichtigkeit bearbeiten. Wir trainieren das Modell anhand eines großen Korpus von Texten und deren Entitätsannotierungen, die aus Wikipedia extrahiert wurden. Das Modell wurde an drei wichtigen NLP-Aufgaben evaluiert, die sowohl unüberwachte als auch überwachte Szenarien umfassen (nämlich Satzähnlichkeit, Entitätsverknüpfung und faktbasierte Fragebeantwortung). Als Ergebnis erzielten wir Stand-of-the-Art-Ergebnisse in allen drei Aufgaben. Unser Code und die trainierten Modelle sind öffentlich zugänglich für weitere wissenschaftliche Forschungen.