HyperAIHyperAI
il y a 11 jours

Transformation des Transformers en Forme de DGNNs

Jie Zhang, Mao-Hsuan Mao, Bo-Wei Chiu, Min-Te Sun
Transformation des Transformers en Forme de DGNNs
Résumé

Les avancées récentes en apprentissage profond ont établi les architectures Transformer comme le paradigme de modélisation dominant. Au cœur du succès des Transformers se trouve le mécanisme d’attention auto-, qui évalue la similarité entre les matrices requête et clé afin de moduler la matrice valeur. Cette opération présente des ressemblances frappantes avec la convolution sur digraphe, ce qui a motivé une investigation sur la possibilité d’utiliser la convolution sur digraphe comme alternative à l’attention auto-. Dans cette étude, nous formalisons ce concept en introduisant une convolution digraphique unitaire synthétique fondée sur la transformation de Fourier du digraphe. Le modèle résultant, que nous appelons Converter, permet effectivement de transformer un Transformer en une forme de réseau neuronal de graphe orienté (DGNN). Nous avons évalué Converter sur le benchmark Long-Range Arena, la classification de documents longs et la classification taxonomique basée sur des séquences d’ADN. Nos résultats expérimentaux démontrent que Converter atteint des performances supérieures tout en préservant une efficacité computationnelle élevée et une simplicité architecturale, ce qui en fait une variante légère mais puissante du Transformer.

Transformation des Transformers en Forme de DGNNs | Articles de recherche récents | HyperAI