Verstärktes Selbst-Aufmerksamkeitsnetzwerk: Eine Kombination von hartem und weichem Aufmerksamkeit für Sequenzmodellierung

Viele Aufgaben der natürlichen Sprachverarbeitung basieren ausschließlich auf dünnen Abhängigkeiten zwischen wenigen Token in einem Satz. Weiche Aufmerksamkeitsmechanismen zeigen vielversprechende Leistungen bei der Modellierung lokaler/globaler Abhängigkeiten durch weiche Wahrscheinlichkeiten zwischen jedem Paar von Token, sind aber bei langen Sätzen weder effektiv noch effizient. Im Gegensatz dazu wählen harte Aufmerksamkeitsmechanismen direkt eine Teilmenge von Token aus, sind jedoch aufgrund ihrer kombinatorischen Natur schwierig und ineffizient zu trainieren. In dieser Arbeit integrieren wir sowohl weiche als auch harte Aufmerksamkeit in ein kontextuelles Fusionsmodell, das "reinforced self-attention (ReSA)" genannt wird, um gegenseitige Vorteile für beide Mechanismen zu erzielen. In ReSA trimmt ein harter Aufmerksamkeitsmechanismus eine Sequenz für einen weichen Selbstaufmerksamkeitsmechanismus, während die weiche Aufmerksamkeit Rückkopplungssignale liefert, um das Training des harten Mechanismus zu erleichtern. Zu diesem Zweck entwickeln wir einen neuen harten Aufmerksamkeitsmechanismus namens "reinforced sequence sampling (RSS)", der Token parallel auswählt und über Policy Gradienten trainiert wird. Mit zwei RSS-Modulen extrahiert ReSA effizient die dünnen Abhängigkeiten zwischen jedem Paar ausgewählter Token. Schließlich schlagen wir ein RNN/CNN-freies Sätzekodierungsmodell vor, das "reinforced self-attention network (ReSAN)" heißt und ausschließlich auf ReSA basiert. Es erzielt den aktuellen Stand der Technik in Bezug auf die Leistung auf den Datensätzen Stanford Natural Language Inference (SNLI) und Sentences Involving Compositional Knowledge (SICK).