Neuüberlegung der Selbst-Attention: Hin zum Verständnis in der neuronalen Analyse

Aufmerksamkeitsmechanismen haben die Leistung von NLP-Aufgaben verbessert, während sie die Erklärbarkeit der Modelle bewahrt haben. Selbst-Aufmerksamkeit wird derzeit weit verbreitet eingesetzt, doch die Interpretierbarkeit ist aufgrund der Vielzahl an Aufmerksamkeitsverteilungen schwierig. Kürzliche Arbeiten haben gezeigt, dass Modellrepräsentationen von label-spezifischer Information profitieren können, was gleichzeitig die Interpretation von Vorhersagen erleichtert. Wir stellen die Label Attention Layer vor: eine neue Form der Selbst-Aufmerksamkeit, bei der die Aufmerksamkeitsköpfe die Labels darstellen. Wir testen unsere neue Schicht anhand von Constituency- und Dependency-Parsing-Experimenten und zeigen, dass unser neues Modell sowohl auf dem Penn Treebank (PTB) als auch auf dem Chinese Treebank neue SOTA-Ergebnisse für beide Aufgaben erzielt. Zudem benötigt unser Modell im Vergleich zu bestehenden Ansätzen weniger Selbst-Aufmerksamkeitsschichten. Schließlich stellen wir fest, dass die Label Attention-Köpfe Beziehungen zwischen syntaktischen Kategorien lernen und Wege zur Fehleranalyse aufzeigen.