HyperAIHyperAI

Command Palette

Search for a command to run...

Single Headed Attention RNN: Hören Sie auf, mit Ihrem Kopf zu denken

Stephen Merity

Zusammenfassung

Die führenden Ansätze im Bereich der Sprachmodellierung sind alle besessen von Fernsehsendungen meiner Jugend – nämlich Transformers und Sesamstraße. Transformers dies, Transformers jenes, und dort drüben ein Feuerwerk aus GPU-TPU-neuromorpher Wafer-Skala-Silizium-Technologie. Wir entscheiden uns stattdessen für den faulen Weg alter, bewährter Techniken mit einem raffinierten, kryptografieinspirierten Akronym: dem Single Headed Attention RNN (SHA-RNN). Ziel des Autors ist es allein, zu zeigen, dass die gesamte Forschungsrichtung möglicherweise eine ganz andere Entwicklung genommen hätte, wenn wir stattdessen ein leicht abweichendes Akronym und ein leicht anderes Ergebnis verfolgt hätten. Wir nehmen ein bisher starkes Sprachmodell, das ausschließlich aus langweiligen LSTMs besteht, und bringen es auf dem Datensatz enwik8 auf ein Niveau, das nahezu an die State-of-the-Art-Ergebnisse auf Byte-Ebene heranreicht. Diese Arbeit wurde keiner intensiven Hyperparameter-Optimierung unterzogen und lief ausschließlich auf einer herkömmlichen Desktop-Arbeitstation, die den Autoren während eines kalifornischen Sommers in seiner kleinen Studiowohnung unangenehm warm machte. Die endgültigen Ergebnisse sind innerhalb von plus/minus 24 Stunden auf einer einzigen GPU erreichbar – schließlich ist der Autor ungeduldig. Der Aufmerksamkeitsmechanismus lässt sich zudem problemlos auf große Kontexte erweitern, mit minimalen Rechenkosten. Nimm das, Sesamstraße.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Single Headed Attention RNN: Hören Sie auf, mit Ihrem Kopf zu denken | Paper | HyperAI