Machines de Turing à jetons

Nous proposons les Machines de Turing à Jetons (Token Turing Machines, TTM), un modèle Transformer séquentiel et autoregressif doté de mémoire pour la compréhension visuelle séquentielle dans des scénarios du monde réel. Notre modèle s'inspire de la Machine de Turing Neuromorphique fondateur, et dispose d'une mémoire externe composée d'un ensemble de jetons (tokens) qui résument l'historique précédent (c’est-à-dire les cadres antérieurs). Cette mémoire est efficacement adressée, lue et écrite à l’aide d’un Transformer agissant comme unité de traitement ou contrôleur à chaque étape. Le module de mémoire du modèle garantit qu’une nouvelle observation n’est traitée qu’avec le contenu de la mémoire (et non avec l’ensemble de l’historique), ce qui permet une traitement efficace de séquences longues avec un coût computationnel borné à chaque étape. Nous montrons que la TTM surpasser d’autres approches, telles que d'autres modèles Transformer conçus pour les séquences longues ou les réseaux de neurones récurrents, sur deux tâches réelles de compréhension visuelle séquentielle : la détection temporelle en temps réel d’activités à partir de vidéos et l’apprentissage de politiques d’action robotiques basées sur la vision.Le code est disponible publiquement à l’adresse suivante : https://github.com/google-research/scenic/tree/main/scenic/projects/token_turing