Multi-Branch-Aufmerksamkeits-Transformer

Während die Multi-Branch-Architektur eine zentrale Komponente für den Erfolg von Aufgaben im Bereich des Computer Vision darstellt, wurde sie in der natürlichen Sprachverarbeitung – insbesondere bei sequenziellen Lernaufgaben – bisher wenig untersucht. In dieser Arbeit stellen wir eine einfache, aber effektive Variante des Transformers vor, die wir Multi-Branch Attentive Transformer (kurz: MAT) nennen, bei der die Aufmerksamkeits-Schicht als Durchschnitt mehrerer Zweige definiert ist, wobei jeder Zweig eine unabhängige Multi-Head-Aufmerksamkeits-Schicht darstellt. Zur Regularisierung des Trainings nutzen wir zwei Techniken: Drop-Branch, bei dem während des Trainings zufällig einzelne Zweige abgeschaltet werden, und Proximale Initialisierung, bei der ein vortrainierter Transformer-Modell zur Initialisierung der mehreren Zweige verwendet wird. Experimente im Bereich der maschinellen Übersetzung, Code-Generierung und natürlicher Sprachverstehens zeigen, dass diese einfache Transformer-Variante zu erheblichen Verbesserungen führt. Der Quellcode ist unter \url{https://github.com/HA-Transformer} verfügbar.