HyperAIHyperAI

Command Palette

Search for a command to run...

Verstärktes Selbst-Aufmerksamkeitsnetzwerk: Eine Kombination von hartem und weichem Aufmerksamkeit für Sequenzmodellierung

Tao Shen Tianyi Zhou Guodong Long Jing Jiang Sen Wang Chengqi Zhang

Zusammenfassung

Viele Aufgaben der natürlichen Sprachverarbeitung basieren ausschließlich auf dünnen Abhängigkeiten zwischen wenigen Token in einem Satz. Weiche Aufmerksamkeitsmechanismen zeigen vielversprechende Leistungen bei der Modellierung lokaler/globaler Abhängigkeiten durch weiche Wahrscheinlichkeiten zwischen jedem Paar von Token, sind aber bei langen Sätzen weder effektiv noch effizient. Im Gegensatz dazu wählen harte Aufmerksamkeitsmechanismen direkt eine Teilmenge von Token aus, sind jedoch aufgrund ihrer kombinatorischen Natur schwierig und ineffizient zu trainieren. In dieser Arbeit integrieren wir sowohl weiche als auch harte Aufmerksamkeit in ein kontextuelles Fusionsmodell, das "reinforced self-attention (ReSA)" genannt wird, um gegenseitige Vorteile für beide Mechanismen zu erzielen. In ReSA trimmt ein harter Aufmerksamkeitsmechanismus eine Sequenz für einen weichen Selbstaufmerksamkeitsmechanismus, während die weiche Aufmerksamkeit Rückkopplungssignale liefert, um das Training des harten Mechanismus zu erleichtern. Zu diesem Zweck entwickeln wir einen neuen harten Aufmerksamkeitsmechanismus namens "reinforced sequence sampling (RSS)", der Token parallel auswählt und über Policy Gradienten trainiert wird. Mit zwei RSS-Modulen extrahiert ReSA effizient die dünnen Abhängigkeiten zwischen jedem Paar ausgewählter Token. Schließlich schlagen wir ein RNN/CNN-freies Sätzekodierungsmodell vor, das "reinforced self-attention network (ReSAN)" heißt und ausschließlich auf ReSA basiert. Es erzielt den aktuellen Stand der Technik in Bezug auf die Leistung auf den Datensätzen Stanford Natural Language Inference (SNLI) und Sentences Involving Compositional Knowledge (SICK).


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp