il y a 10 jours

L'hypothèse des voies d'information : les Transformers sont des auto-ensembles dynamiques

Md Shamim Hussain, Mohammed J. Zaki, Dharmashankar Subramanian

Résumé

Les Transformers utilisent un mécanisme d’attention auto-dense qui offre une grande flexibilité pour les connexions à longue portée. Sur plusieurs couches d’un Transformer profond, le nombre de motifs de connexion possibles augmente exponentiellement. Toutefois, très peu de ces motifs contribuent effectivement à la performance du réseau, et encore moins sont essentiels. Nous supposons qu’un Transformer contient des sous-réseaux peu connectés, appelés voies d’information, pouvant être entraînés de manière indépendante. Toutefois, la nature dynamique (c’est-à-dire dépendante de l’entrée) de ces voies rend difficile la suppression (pruning) de l’attention auto-dense pendant l’entraînement. Pourtant, la distribution globale de ces voies est souvent prévisible. Nous exploitons ce fait pour proposer une stratégie d’entraînement générale pour les Transformers, appelée Attention auto-sous-échantillonnée stochastiquement (SSA), qui permet de réduire de 4 à 8 fois à la fois la mémoire et le coût computationnel de l’attention auto pendant l’entraînement, tout en agissant comme une méthode de régularisation améliorant la généralisation par rapport à un entraînement dense. Nous montrons qu’un ensemble de sous-modèles peut être formé à partir des voies sous-échantillonnées au sein d’un réseau, atteignant une performance supérieure à celle du modèle dense associé. Nous menons des expériences sur diverses tâches de traitement du langage naturel, de vision par ordinateur et d’apprentissage sur graphes, dans des cadres à la fois génératifs et discriminatifs, afin de fournir une preuve empirique de nos hypothèses et de démontrer l’efficacité de la méthode proposée.