Erwähnungs-Verknüpfung: Integration textbasierter Kenntnisse in Transformers mittels Entitäten-Erwähnungs-Attention

Aufgaben des natürlichen Sprachverstehens wie die offene Domänen-Fragebeantwortung erfordern oft das Abrufen und Verarbeiten faktischer Informationen aus mehreren Quellen. Wir schlagen vor, dieses Problem zu lösen, indem wir eine semi-parametrische Darstellung einer großen Textkorpus in ein Transformer-Modell integrieren, um es als Quelle faktischen Wissens zu nutzen. Konkret stellt unsere Methode das Wissen mittels eines „Mention Memory“ dar, einer Tabelle dichter Vektorrepräsentationen jeder Entitätsmention in einem Korpus. Das vorgeschlagene Modell – TOME – ist ein Transformer, der über interne Gedächtnisschichten auf diese Informationen zugreift, wobei jede Entitätsmention im Eingabepassage mit dem Mention Memory in Beziehung tritt. Dieser Ansatz ermöglicht die Synthese und das Schlussfolgern über zahlreiche, voneinander unterschiedliche Informationsquellen innerhalb eines einzigen Transformer-Modells. In Experimenten mit einem Gedächtnis von 150 Millionen Wikipedia-Mentions erzielt TOME starke Leistungen bei mehreren offenen Domänen-Aufgaben, die auf Wissen angewiesen sind, einschließlich der Behauptungsverifikationsbenchmarks HoVer und FEVER sowie mehrerer entitätsbasierter QA-Benchmarks. Zudem zeigen wir, dass das Modell lernfähig ist, informative Mentions ohne jegliche direkte Supervision zu identifizieren. Schließlich demonstrieren wir, dass das Modell auf neue, bisher nicht gesehene Entitäten generalisieren kann, indem lediglich das Gedächtnis aktualisiert wird, ohne dass ein Neutrainieren erforderlich ist.