il y a 15 jours

Convolutions à noyau large sensibles au temps

Vasileios Lioutas, Yuhong Guo

Résumé

À ce jour, la plupart des architectures de pointe pour le traitement des séquences reposent sur l'attention afin de construire des modèles génératifs pour des tâches linguistiques. Certaines de ces architectures exploitent l'ensemble des jetons de la séquence disponible pour générer une distribution d'attention, ce qui entraîne une complexité temporelle de $O(n^2)$. En alternative, elles utilisent des convolutions depthwise avec des noyaux normalisés par softmax de taille $k$, agissant comme une attention auto-locale à fenêtre limitée, menant à une complexité temporelle de $O(k \cdot n)$. Dans cet article, nous introduisons les convolutions à noyau large sensible au temps (TaLK, Time-aware Large Kernel), une nouvelle opération de convolution adaptative qui apprend à prédire la taille d’un noyau de sommation, plutôt que d’utiliser une matrice de noyau de taille fixe. Cette approche permet d’atteindre une complexité temporelle de $O(n)$, rendant ainsi le processus d’encodage des séquences linéaire par rapport au nombre de jetons. Nous évaluons la méthode proposée sur de grands jeux de données standard pour la traduction automatique, la synthèse abstraite et le modèle de langage, et montrons que les convolutions TaLK constituent une amélioration efficace par rapport aux approches basées sur l’attention ou les convolutions existantes.