vor 9 Tagen

Single Headed Attention RNN: Hören Sie auf, mit Ihrem Kopf zu denken

Stephen Merity

Abstract

Die führenden Ansätze im Bereich der Sprachmodellierung sind alle besessen von Fernsehsendungen meiner Jugend – nämlich Transformers und Sesamstraße. Transformers dies, Transformers jenes, und dort drüben ein Feuerwerk aus GPU-TPU-neuromorpher Wafer-Skala-Silizium-Technologie. Wir entscheiden uns stattdessen für den faulen Weg alter, bewährter Techniken mit einem raffinierten, kryptografieinspirierten Akronym: dem Single Headed Attention RNN (SHA-RNN). Ziel des Autors ist es allein, zu zeigen, dass die gesamte Forschungsrichtung möglicherweise eine ganz andere Entwicklung genommen hätte, wenn wir stattdessen ein leicht abweichendes Akronym und ein leicht anderes Ergebnis verfolgt hätten. Wir nehmen ein bisher starkes Sprachmodell, das ausschließlich aus langweiligen LSTMs besteht, und bringen es auf dem Datensatz enwik8 auf ein Niveau, das nahezu an die State-of-the-Art-Ergebnisse auf Byte-Ebene heranreicht. Diese Arbeit wurde keiner intensiven Hyperparameter-Optimierung unterzogen und lief ausschließlich auf einer herkömmlichen Desktop-Arbeitstation, die den Autoren während eines kalifornischen Sommers in seiner kleinen Studiowohnung unangenehm warm machte. Die endgültigen Ergebnisse sind innerhalb von plus/minus 24 Stunden auf einer einzigen GPU erreichbar – schließlich ist der Autor ungeduldig. Der Aufmerksamkeitsmechanismus lässt sich zudem problemlos auf große Kontexte erweitern, mit minimalen Rechenkosten. Nimm das, Sesamstraße.