Attention à une seule tête RNN : cessez de penser avec votre tête

Les approches dominantes en modélisation du langage sont toutes obsédées par des émissions télévisées de mon enfance — à savoir Transformers et Sesame Street. Transformers ceci, Transformers cela, et ici, un feu de joie de puces GPU-TPU- neuromorphiques à l’échelle de wafer de silicium. Nous optons pour la voie facile des techniques anciennes et éprouvées, munies d’un acronyme élégant inspiré de la cryptographie : le SHA-RNN (Single Headed Attention RNN). L’objectif unique de l’auteur est de démontrer que tout le domaine aurait pu emprunter une direction radicalement différente si nous avions été obsédés par un acronyme légèrement différent et par un résultat légèrement différent. Nous prenons un modèle de langage auparavant puissant, fondé uniquement sur des LSTMs ennuyeux, et parvenons à ses résultats à moins d’un coup de pierre de ceux des modèles d’état de l’art au niveau des octets sur enwik8. Ce travail n’a subi aucune optimisation intensive des hyperparamètres et a été entièrement exécuté sur une machine de bureau grand public, qui a rendu l’appartement minuscule de l’auteur bien trop chaud au cœur d’un été à San Francisco. Les résultats finaux sont atteignables en plus ou moins 24 heures sur une seule GPU, car l’auteur est impatient. Le mécanisme d’attention peut également être facilement étendu à de grands contextes avec une consommation de calcul minimale. Prends ça, Sesame Street.