Universelle Transformer

Recurrent Neural Networks (RNNs) verarbeiten Daten sequenziell, indem sie ihren Zustand bei jedem neuen Datenpunkt aktualisieren, und waren lange Zeit die Standardwahl für Sequenzmodellierungsaufgaben. Ihre inhärent sequenzielle Berechnung macht sie jedoch langsam im Training. Kürzlich wurde gezeigt, dass feedforward- und Faltungsbasierte Architekturen auf bestimmten Sequenzmodellierungsaufgaben wie der maschinellen Übersetzung überlegene Ergebnisse erzielen, wobei der zusätzliche Vorteil besteht, dass sie alle Eingaben in der Sequenz gleichzeitig verarbeiten, was eine einfache Parallelisierung und schnellere Trainingszeiten ermöglicht. Trotz dieser Erfolge scheitern jedoch populäre feedforward-Sequenzmodelle wie der Transformer an vielen einfachen Aufgaben, die rekurrente Modelle mühelos bewältigen, z.B. das Kopieren von Zeichenketten oder sogar einfache logische Schlussfolgerungen, wenn die Länge der Zeichenkette oder Formel jener übersteigt, die während des Trainings beobachtet wurden. Wir schlagen den Universal Transformer (UT) vor, ein zeitlich paralleles selbst-merksamkeits-basiertes rekurrentes Sequenzmodell, das als Verallgemeinerung des Transformer-Modells angesehen werden kann und diese Probleme angeht. UTs kombinieren die Parallelisierbarkeit und den globalen Rezeptivbereich von feedforward-Sequenzmodellen wie dem Transformer mit dem rekurrenten induktiven Bias von RNNs. Wir fügen außerdem einen dynamischen Halte-Mechanismus pro Position hinzu und stellen fest, dass dies die Genauigkeit bei mehreren Aufgaben verbessert. Im Gegensatz zum Standard-Transformer können UTs unter bestimmten Annahmen als Turing-vollständig nachgewiesen werden. Unsere Experimente zeigen, dass UTs auf einer Vielzahl algorithmischer und sprachlicher Verständnisaufgaben bessere Ergebnisse erzielen als Standard-Transformers, einschließlich der anspruchsvollen LAMBADA-Sprachmodellierungsaufgabe, bei der UTs einen neuen Stand der Technik erreichen, sowie bei der maschinellen Übersetzung, wo UTs eine Verbesserung um 0,9 BLEU-Punkte gegenüber Transformern auf dem WMT14 En-De-Datensatz erzielen.