HyperAIHyperAI

Command Palette

Search for a command to run...

Attention à une seule tête RNN : cessez de penser avec votre tête

Stephen Merity

Résumé

Les approches dominantes en modélisation du langage sont toutes obsédées par des émissions télévisées de mon enfance — à savoir Transformers et Sesame Street. Transformers ceci, Transformers cela, et ici, un feu de joie de puces GPU-TPU- neuromorphiques à l’échelle de wafer de silicium. Nous optons pour la voie facile des techniques anciennes et éprouvées, munies d’un acronyme élégant inspiré de la cryptographie : le SHA-RNN (Single Headed Attention RNN). L’objectif unique de l’auteur est de démontrer que tout le domaine aurait pu emprunter une direction radicalement différente si nous avions été obsédés par un acronyme légèrement différent et par un résultat légèrement différent. Nous prenons un modèle de langage auparavant puissant, fondé uniquement sur des LSTMs ennuyeux, et parvenons à ses résultats à moins d’un coup de pierre de ceux des modèles d’état de l’art au niveau des octets sur enwik8. Ce travail n’a subi aucune optimisation intensive des hyperparamètres et a été entièrement exécuté sur une machine de bureau grand public, qui a rendu l’appartement minuscule de l’auteur bien trop chaud au cœur d’un été à San Francisco. Les résultats finaux sont atteignables en plus ou moins 24 heures sur une seule GPU, car l’auteur est impatient. Le mécanisme d’attention peut également être facilement étendu à de grands contextes avec une consommation de calcul minimale. Prends ça, Sesame Street.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp