HyperAIHyperAI

Command Palette

Search for a command to run...

Multi-Branch-Aufmerksamkeits-Transformer

Yang Fan Shufang Xie Yingce Xia Lijun Wu Tao Qin Xiang-Yang Li Tie-Yan Liu

Zusammenfassung

Während die Multi-Branch-Architektur eine zentrale Komponente für den Erfolg von Aufgaben im Bereich des Computer Vision darstellt, wurde sie in der natürlichen Sprachverarbeitung – insbesondere bei sequenziellen Lernaufgaben – bisher wenig untersucht. In dieser Arbeit stellen wir eine einfache, aber effektive Variante des Transformers vor, die wir Multi-Branch Attentive Transformer (kurz: MAT) nennen, bei der die Aufmerksamkeits-Schicht als Durchschnitt mehrerer Zweige definiert ist, wobei jeder Zweig eine unabhängige Multi-Head-Aufmerksamkeits-Schicht darstellt. Zur Regularisierung des Trainings nutzen wir zwei Techniken: Drop-Branch, bei dem während des Trainings zufällig einzelne Zweige abgeschaltet werden, und Proximale Initialisierung, bei der ein vortrainierter Transformer-Modell zur Initialisierung der mehreren Zweige verwendet wird. Experimente im Bereich der maschinellen Übersetzung, Code-Generierung und natürlicher Sprachverstehens zeigen, dass diese einfache Transformer-Variante zu erheblichen Verbesserungen führt. Der Quellcode ist unter \url{https://github.com/HA-Transformer} verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp