HyperAIHyperAI

Command Palette

Search for a command to run...

R-Transformer: Rekurrentes Neuronales Netzwerk erweiterter Transformer

Zhiwei Wang Yao Ma Zitao Liu Jiliang Tang

Zusammenfassung

Recurrent Neural Networks (RNNs) waren lange Zeit die vorherrschende Wahl für sequenzielle Modellierung. Sie leiden jedoch erheblich unter zwei Problemen: der Unfähigkeit, sehr langfristige Abhängigkeiten zu erfassen, und der Unfähigkeit, den sequenziellen Berechnungsprozess zu parallelisieren. Daher wurden kürzlich viele nicht-rekurrente sequenzielle Modelle vorgeschlagen, die auf Faltung und Aufmerksamkeitsoperationen basieren. Besonders hervorzuheben sind Modelle mit mehrfachem Aufmerksamkeitsmechanismus (multi-head attention), wie der Transformer, der eine extrem hohe Effektivität bei der Erfassung von langfristigen Abhängigkeiten in verschiedenen sequenziellen Modellierungsaufgaben gezeigt hat. Trotz ihres Erfolgs fehlen diesen Modellen jedoch notwendige Komponenten zur Modellierung lokaler Strukturen in Sequenzen und sie hängen stark von Positionsembeddings ab, die begrenzte Wirkungen haben und einen beträchtlichen Entwurfsaufwand erfordern. In dieser Arbeit schlagen wir den R-Transformer vor, der die Vorteile sowohl von RNNs als auch des mehrfachen Aufmerksamkeitsmechanismus nutzt, während er deren jeweilige Nachteile vermeidet. Das vorgeschlagene Modell kann sowohl lokale Strukturen als auch globale langfristige Abhängigkeiten in Sequenzen effektiv erfassen, ohne Positionsembeddings zu verwenden. Wir bewerten den R-Transformer durch umfangreiche Experimente mit Daten aus einem breiten Spektrum an Domänen und zeigen empirisch, dass der R-Transformer in den meisten Aufgaben deutlich besser abschneidet als die bislang besten Methoden. Der Code wurde öffentlich zugänglich gemacht unter \url{https://github.com/DSE-MSU/R-transformer}.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp