HyperAIHyperAI
il y a 2 mois

Les convolutions graphiques enrichissent l'auto-attention dans les Transformers !

Choi, Jeongwhan ; Wi, Hyowon ; Kim, Jayoung ; Shin, Yehjin ; Lee, Kookjin ; Trask, Nathaniel ; Park, Noseong
Les convolutions graphiques enrichissent l'auto-attention dans les Transformers !
Résumé

Les Transformers, réputés pour leur mécanisme d'auto-attention, ont atteint des performances de pointe dans diverses tâches de traitement du langage naturel, de vision par ordinateur, de modélisation de séries temporelles, etc. Cependant, l'un des défis posés par les modèles de Transformers profonds est le problème de sur-lissage (oversmoothing), où les représentations entre les couches convergent vers des valeurs indiscernables, entraînant une dégradation significative des performances. Nous interprétons l'auto-attention originale comme un filtre graphique simple et la redéfinissons sous l'angle du traitement du signal sur graphes (GSP). Nous proposons une auto-attention basée sur un filtre graphique (GFSA) pour apprendre une version générale mais efficace, dont la complexité est cependant légèrement supérieure à celle du mécanisme d'auto-attention original. Nous démontrons que le GFSA améliore les performances des Transformers dans divers domaines, notamment la vision par ordinateur, le traitement du langage naturel, les tâches au niveau des graphes, la reconnaissance vocale et la classification de code.

Les convolutions graphiques enrichissent l'auto-attention dans les Transformers ! | Articles de recherche récents | HyperAI