LUKE: Tiefe kontextualisierte Entitätsdarstellungen mit entitätsbewusster Selbst-Attention

Entitätsrepräsentationen sind nützlich für natürlichsprachliche Aufgaben, die Entitäten betreffen. In diesem Artikel stellen wir neue vortrainierte kontextuelle Repräsentationen von Wörtern und Entitäten vor, die auf dem bidirektionalen Transformer basieren. Das vorgeschlagene Modell behandelt Wörter und Entitäten in einem gegebenen Text als unabhängige Tokens und generiert kontextuelle Repräsentationen für beide. Das Modell wird mittels einer neuen Vortrainingsaufgabe trainiert, die auf dem maskierten Sprachmodell von BERT basiert. Diese Aufgabe besteht darin, zufällig maskierte Wörter und Entitäten in einer großen, entitätsannotierten Korpus aus Wikipedia vorherzusagen. Außerdem schlagen wir eine entitätsbewusste Selbst-Attention-Mechanismus vor, der eine Erweiterung des Selbst-Attention-Mechanismus des Transformers darstellt und die Typen der Tokens (Wörter oder Entitäten) bei der Berechnung der Aufmerksamkeitswerte berücksichtigt. Das vorgeschlagene Modell erzielt beeindruckende empirische Ergebnisse auf einer Vielzahl entitätsbezogener Aufgaben. Insbesondere erreicht es Spitzenwerte auf fünf bekannten Datensätzen: Open Entity (Entitätstypisierung), TACRED (Relationklassifikation), CoNLL-2003 (Namengebundenen Entitäten Erkennung), ReCoRD (Fragebeantwortung im Cloze-Stil) und SQuAD 1.1 (extraktive Fragebeantwortung). Der Quellcode und die vortrainierten Repräsentationen sind unter https://github.com/studio-ousia/luke verfügbar.