vor 2 Monaten

R-Transformer: Rekurrentes Neuronales Netzwerk erweiterter Transformer

Zhiwei Wang; Yao Ma; Zitao Liu; Jiliang Tang

Abstract

Recurrent Neural Networks (RNNs) waren lange Zeit die vorherrschende Wahl für sequenzielle Modellierung. Sie leiden jedoch erheblich unter zwei Problemen: der Unfähigkeit, sehr langfristige Abhängigkeiten zu erfassen, und der Unfähigkeit, den sequenziellen Berechnungsprozess zu parallelisieren. Daher wurden kürzlich viele nicht-rekurrente sequenzielle Modelle vorgeschlagen, die auf Faltung und Aufmerksamkeitsoperationen basieren. Besonders hervorzuheben sind Modelle mit mehrfachem Aufmerksamkeitsmechanismus (multi-head attention), wie der Transformer, der eine extrem hohe Effektivität bei der Erfassung von langfristigen Abhängigkeiten in verschiedenen sequenziellen Modellierungsaufgaben gezeigt hat. Trotz ihres Erfolgs fehlen diesen Modellen jedoch notwendige Komponenten zur Modellierung lokaler Strukturen in Sequenzen und sie hängen stark von Positionsembeddings ab, die begrenzte Wirkungen haben und einen beträchtlichen Entwurfsaufwand erfordern. In dieser Arbeit schlagen wir den R-Transformer vor, der die Vorteile sowohl von RNNs als auch des mehrfachen Aufmerksamkeitsmechanismus nutzt, während er deren jeweilige Nachteile vermeidet. Das vorgeschlagene Modell kann sowohl lokale Strukturen als auch globale langfristige Abhängigkeiten in Sequenzen effektiv erfassen, ohne Positionsembeddings zu verwenden. Wir bewerten den R-Transformer durch umfangreiche Experimente mit Daten aus einem breiten Spektrum an Domänen und zeigen empirisch, dass der R-Transformer in den meisten Aufgaben deutlich besser abschneidet als die bislang besten Methoden. Der Code wurde öffentlich zugänglich gemacht unter \url{https://github.com/DSE-MSU/R-transformer}.