HyperAIHyperAI

Command Palette

Search for a command to run...

Universelle Transformer

Mostafa Dehghani*† Stephan Gouws* Oriol Vinyals Jakob Uszkoreit Łukasz Kaiser

Zusammenfassung

Recurrent Neural Networks (RNNs) verarbeiten Daten sequenziell, indem sie ihren Zustand bei jedem neuen Datenpunkt aktualisieren, und waren lange Zeit die Standardwahl für Sequenzmodellierungsaufgaben. Ihre inhärent sequenzielle Berechnung macht sie jedoch langsam im Training. Kürzlich wurde gezeigt, dass feedforward- und Faltungsbasierte Architekturen auf bestimmten Sequenzmodellierungsaufgaben wie der maschinellen Übersetzung überlegene Ergebnisse erzielen, wobei der zusätzliche Vorteil besteht, dass sie alle Eingaben in der Sequenz gleichzeitig verarbeiten, was eine einfache Parallelisierung und schnellere Trainingszeiten ermöglicht. Trotz dieser Erfolge scheitern jedoch populäre feedforward-Sequenzmodelle wie der Transformer an vielen einfachen Aufgaben, die rekurrente Modelle mühelos bewältigen, z.B. das Kopieren von Zeichenketten oder sogar einfache logische Schlussfolgerungen, wenn die Länge der Zeichenkette oder Formel jener übersteigt, die während des Trainings beobachtet wurden. Wir schlagen den Universal Transformer (UT) vor, ein zeitlich paralleles selbst-merksamkeits-basiertes rekurrentes Sequenzmodell, das als Verallgemeinerung des Transformer-Modells angesehen werden kann und diese Probleme angeht. UTs kombinieren die Parallelisierbarkeit und den globalen Rezeptivbereich von feedforward-Sequenzmodellen wie dem Transformer mit dem rekurrenten induktiven Bias von RNNs. Wir fügen außerdem einen dynamischen Halte-Mechanismus pro Position hinzu und stellen fest, dass dies die Genauigkeit bei mehreren Aufgaben verbessert. Im Gegensatz zum Standard-Transformer können UTs unter bestimmten Annahmen als Turing-vollständig nachgewiesen werden. Unsere Experimente zeigen, dass UTs auf einer Vielzahl algorithmischer und sprachlicher Verständnisaufgaben bessere Ergebnisse erzielen als Standard-Transformers, einschließlich der anspruchsvollen LAMBADA-Sprachmodellierungsaufgabe, bei der UTs einen neuen Stand der Technik erreichen, sowie bei der maschinellen Übersetzung, wo UTs eine Verbesserung um 0,9 BLEU-Punkte gegenüber Transformern auf dem WMT14 En-De-Datensatz erzielen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp