HyperAIHyperAI
il y a 17 jours

$\infty$-former : Transformer à mémoire infinie

Pedro Henrique Martins, Zita Marinho, André F. T. Martins
$\infty$-former : Transformer à mémoire infinie
Résumé

Les Transformers sont incapables de modéliser efficacement des mémoires à long terme, car la quantité de calcul qu’ils doivent effectuer croît avec la longueur du contexte. Bien que des variantes efficaces des Transformers aient été proposées, toutes présentent une capacité mémoire finie et sont contraintes de rejeter les informations anciennes. Dans cet article, nous proposons le $\infty$-former, qui étend le Transformer classique en lui ajoutant une mémoire à long terme illimitée. En exploitant un mécanisme d’attention dans un espace continu pour accéder à la mémoire à long terme, la complexité d’attention du $\infty$-former devient indépendante de la longueur du contexte, au prix d’un compromis entre la longueur de la mémoire et la précision. Afin de contrôler les zones où la précision est plus importante, le $\infty$-former maintient des « mémoires collantes », permettant ainsi de modéliser des contextes arbitrairement longs tout en conservant un budget de calcul fixe. Des expériences sur une tâche synthétique de tri, la modélisation du langage et la génération de dialogues fondés sur des documents démontrent la capacité du $\infty$-former à conserver des informations provenant de séquences très longues.

$\infty$-former : Transformer à mémoire infinie | Articles de recherche récents | HyperAI