HyperAIHyperAI

Command Palette

Search for a command to run...

Star-Transformer

Author Name

Résumé

Bien que le modèle Transformer ait connu de grands succès dans de nombreuses tâches de traitement du langage naturel (NLP), sa structure lourde avec des connexions d'attention entièrement connectées entraîne une dépendance à de grandes quantités de données d'entraînement. Dans cet article, nous présentons le Star-Transformer, une alternative plus légère obtenue par une élimination soigneuse des connexions. Pour réduire la complexité du modèle, nous remplaçons la structure entièrement connectée par une topologie en étoile, dans laquelle chaque paire de nœuds non adjacents est connectée via un nœud relais partagé. Ainsi, la complexité passe d'une relation quadratique à une relation linéaire, tout en conservant la capacité de capturer à la fois les compositions locales et les dépendances à long terme. Les expériences menées sur quatre tâches (22 jeux de données) montrent que le Star-Transformer a obtenu des améliorations significatives par rapport au Transformer standard pour les jeux de données de taille modeste.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Star-Transformer | Articles | HyperAI