HyperAIHyperAI
vor 9 Tagen

Transformationen mit Feedback Memory: Einige Limitationen adressieren

Angela Fan, Thibaut Lavril, Edouard Grave, Armand Joulin, Sainbayar Sukhbaatar
Transformationen mit Feedback Memory: Einige Limitationen adressieren
Abstract

Transformers wurden erfolgreich auf sequenzielle, autoregressive Aufgaben angewendet, obwohl sie Feedforward-Netze sind. Im Gegensatz zu rekurrenten neuronalen Netzen nutzen Transformers Aufmerksamkeit, um zeitliche Beziehungen zu erfassen, während sie Eingabetoken parallel verarbeiten. Diese Parallelisierung macht sie rechnerisch effizient, beschränkt jedoch die Fähigkeit des Modells, die sequenzielle Struktur der Eingabe vollständig auszunutzen. Die Darstellung in einer bestimmten Schicht kann nur auf Darstellungen aus niedrigeren Schichten zugreifen, nicht jedoch auf bereits verfügbare, höherstufige Darstellungen. In dieser Arbeit stellen wir die Feedback-Transformer-Architektur vor, die allen zukünftigen Darstellungen alle vorherigen Darstellungen zugänglich macht, wodurch die tiefste Darstellung des aktuellen Zeitpunkts aus der höchsten abstrakten Darstellung der Vergangenheit gebildet wird. Wir zeigen an einer Vielzahl von Benchmarks im Bereich Sprachmodellierung, maschinelle Übersetzung und Verstärkungslernen, dass die erhöhte Darstellungskapazität kleine, flache Modelle ermöglicht, die eine deutlich stärkere Leistung erzielen als vergleichbare Transformers.

Transformationen mit Feedback Memory: Einige Limitationen adressieren | Neueste Forschungsarbeiten | HyperAI