Untersuchung von Entitätswissen in BERT mit einfacher neuraler End-to-End-Entitätenverknüpfung

Eine typische Architektur für end-to-end-Entitätsverknüpfungssysteme besteht aus drei Schritten: Erwähnungserkennung, Kandidatengenerierung und Entitätsdisambiguierung. In dieser Studie untersuchen wir folgende Fragen: (a) Können alle diese Schritte gemeinsam mit einem Modell für kontextuelle Textrepräsentationen, beispielsweise BERT (Devlin et al., 2019), gelernt werden? (b) Wie viel Entitätswissen ist bereits in vortrainiertem BERT enthalten? (c) Verbessert zusätzlicher Entitätswissen die Leistung von BERT in nachgeschalteten Aufgaben? Hierzu schlagen wir eine extreme Vereinfachung des Entitätsverknüpfungsszenarios vor, die überraschend gut funktioniert: Wir formulieren die Aufgabe einfach als Token-klassifizierung über das gesamte Entitätsvokabular (in unserem Fall über 700.000 Klassen). Wir zeigen an einem Benchmark für Entitätsverknüpfung, dass (i) dieses Modell die Entitätsrepräsentationen gegenüber reinem BERT verbessert, (ii) dass es Architekturen für Entitätsverknüpfung übertrifft, die die Aufgaben getrennt optimieren, und (iii) dass es nur die aktuelle State-of-the-Art-Methode, die Erwähnungserkennung und Entitätsdisambiguierung gemeinsam optimiert, knapp hinter sich lässt. Zudem untersuchen wir die Nützlichkeit von entitätsbewussten Token-Repräsentationen in Benchmarks für Textverständnis wie GLUE sowie in Frage-Antwort-Benchmarks wie SQUAD V2 und SWAG sowie im maschinellen Übersetzungsbenchmark EN-DE WMT14. Überraschenderweise stellen wir fest, dass die meisten dieser Benchmarks von zusätzlichen Entitätskenntnissen nicht profitieren, mit Ausnahme einer Aufgabe mit sehr kleinem Trainingsdatensatz, der RTE-Aufgabe im GLUE-Benchmark, die um 2 % verbessert wird.