HyperAIHyperAI

Command Palette

Search for a command to run...

Transformationen mit Feedback Memory: Einige Limitationen adressieren

Angela Fan Thibaut Lavril Edouard Grave Armand Joulin Sainbayar Sukhbaatar

Zusammenfassung

Transformers wurden erfolgreich auf sequenzielle, autoregressive Aufgaben angewendet, obwohl sie Feedforward-Netze sind. Im Gegensatz zu rekurrenten neuronalen Netzen nutzen Transformers Aufmerksamkeit, um zeitliche Beziehungen zu erfassen, während sie Eingabetoken parallel verarbeiten. Diese Parallelisierung macht sie rechnerisch effizient, beschränkt jedoch die Fähigkeit des Modells, die sequenzielle Struktur der Eingabe vollständig auszunutzen. Die Darstellung in einer bestimmten Schicht kann nur auf Darstellungen aus niedrigeren Schichten zugreifen, nicht jedoch auf bereits verfügbare, höherstufige Darstellungen. In dieser Arbeit stellen wir die Feedback-Transformer-Architektur vor, die allen zukünftigen Darstellungen alle vorherigen Darstellungen zugänglich macht, wodurch die tiefste Darstellung des aktuellen Zeitpunkts aus der höchsten abstrakten Darstellung der Vergangenheit gebildet wird. Wir zeigen an einer Vielzahl von Benchmarks im Bereich Sprachmodellierung, maschinelle Übersetzung und Verstärkungslernen, dass die erhöhte Darstellungskapazität kleine, flache Modelle ermöglicht, die eine deutlich stärkere Leistung erzielen als vergleichbare Transformers.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Transformationen mit Feedback Memory: Einige Limitationen adressieren | Paper | HyperAI