HyperAIHyperAI

Command Palette

Search for a command to run...

Convolutions à noyau large sensibles au temps

Vasileios Lioutas Yuhong Guo

Résumé

À ce jour, la plupart des architectures de pointe pour le traitement des séquences reposent sur l'attention afin de construire des modèles génératifs pour des tâches linguistiques. Certaines de ces architectures exploitent l'ensemble des jetons de la séquence disponible pour générer une distribution d'attention, ce qui entraîne une complexité temporelle de O(n2)O(n^2)O(n2). En alternative, elles utilisent des convolutions depthwise avec des noyaux normalisés par softmax de taille kkk, agissant comme une attention auto-locale à fenêtre limitée, menant à une complexité temporelle de O(kn)O(k \cdot n)O(kn). Dans cet article, nous introduisons les convolutions à noyau large sensible au temps (TaLK, Time-aware Large Kernel), une nouvelle opération de convolution adaptative qui apprend à prédire la taille d’un noyau de sommation, plutôt que d’utiliser une matrice de noyau de taille fixe. Cette approche permet d’atteindre une complexité temporelle de O(n)O(n)O(n), rendant ainsi le processus d’encodage des séquences linéaire par rapport au nombre de jetons. Nous évaluons la méthode proposée sur de grands jeux de données standard pour la traduction automatique, la synthèse abstraite et le modèle de langage, et montrons que les convolutions TaLK constituent une amélioration efficace par rapport aux approches basées sur l’attention ou les convolutions existantes.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Convolutions à noyau large sensibles au temps | Articles | HyperAI