HyperAIHyperAI

Command Palette

Search for a command to run...

Transformateurs Adaptativement Épars

Gonçalo M. Correia Vlad Niculae André F.T. Martins

Résumé

Les mécanismes d'attention sont devenus omniprésents dans le traitement du langage naturel (NLP). Les architectures récentes, notamment le Transformer, apprennent des représentations de mots puissantes et contextuelles à travers des couches d'attention multi-têtes. Les multiples têtes d'attention apprennent différents types de relations entre les mots. Cependant, avec l'attention softmax standard, toutes les têtes d'attention sont denses, attribuant un poids non nul à tous les mots du contexte. Dans ce travail, nous introduisons le Transformer à attention adaptativement creuse, où les têtes d'attention présentent des motifs de creux flexibles et dépendants du contexte. Cette crevance est réalisée en remplaçant softmax par ααα-entmax : une généralisation différentiable de softmax qui permet aux mots mal notés de recevoir un poids exactement nul. De plus, nous développons une méthode pour apprendre automatiquement le paramètre ααα -- qui contrôle la forme et la crevance de ααα-entmax -- permettant aux têtes d'attention de choisir entre un comportement concentré ou dispersé. Notre Transformer à attention adaptativement creuse améliore l'interprétabilité et la diversité des têtes par rapport aux Transformers softmax sur des jeux de données de traduction automatique. Les résultats de l'analyse quantitative et qualitative de notre approche montrent que les têtes dans différentes couches apprennent des préférences de crevance différentes et tendent à être plus diversifiées dans leurs distributions d'attention que les Transformers softmax. De plus, sans perte de précision, la crevance dans les têtes d'attention aide à révéler différentes spécialisations des têtes.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp