HyperAIHyperAI

Command Palette

Search for a command to run...

L'hypothèse des voies d'information : les Transformers sont des auto-ensembles dynamiques

Md Shamim Hussain Mohammed J. Zaki Dharmashankar Subramanian

Résumé

Les Transformers utilisent un mécanisme d’attention auto-dense qui offre une grande flexibilité pour les connexions à longue portée. Sur plusieurs couches d’un Transformer profond, le nombre de motifs de connexion possibles augmente exponentiellement. Toutefois, très peu de ces motifs contribuent effectivement à la performance du réseau, et encore moins sont essentiels. Nous supposons qu’un Transformer contient des sous-réseaux peu connectés, appelés voies d’information, pouvant être entraînés de manière indépendante. Toutefois, la nature dynamique (c’est-à-dire dépendante de l’entrée) de ces voies rend difficile la suppression (pruning) de l’attention auto-dense pendant l’entraînement. Pourtant, la distribution globale de ces voies est souvent prévisible. Nous exploitons ce fait pour proposer une stratégie d’entraînement générale pour les Transformers, appelée Attention auto-sous-échantillonnée stochastiquement (SSA), qui permet de réduire de 4 à 8 fois à la fois la mémoire et le coût computationnel de l’attention auto pendant l’entraînement, tout en agissant comme une méthode de régularisation améliorant la généralisation par rapport à un entraînement dense. Nous montrons qu’un ensemble de sous-modèles peut être formé à partir des voies sous-échantillonnées au sein d’un réseau, atteignant une performance supérieure à celle du modèle dense associé. Nous menons des expériences sur diverses tâches de traitement du langage naturel, de vision par ordinateur et d’apprentissage sur graphes, dans des cadres à la fois génératifs et discriminatifs, afin de fournir une preuve empirique de nos hypothèses et de démontrer l’efficacité de la méthode proposée.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
L'hypothèse des voies d'information : les Transformers sont des auto-ensembles dynamiques | Articles | HyperAI