Transformateur à Mémoire et Anticipation pour la Compréhension en Ligne des Actions

La plupart des systèmes de prévision existants sont basés sur la mémoire et tentent d'imiter la capacité humaine de prévision en utilisant divers mécanismes mnésiques. Ces méthodes ont progressé dans la modélisation temporelle de la dépendance à la mémoire. Néanmoins, une faiblesse évidente de ce paradigme est qu'il ne peut modéliser qu'une dépendance historique limitée et ne peut pas transcender le passé. Dans cet article, nous repensons la dépendance temporelle de l'évolution des événements et proposons un nouveau paradigme basé sur la mémoire et l'anticipation pour modéliser l'ensemble de la structure temporelle, incluant le passé, le présent et l'avenir. Sur cette base, nous présentons le Memory-and-Anticipation Transformer (MAT), une approche basée sur la mémoire et l'anticipation, pour traiter les tâches de détection d'action en ligne et d'anticipation. De plus, grâce à sa supériorité inhérente, le MAT peut traiter ces tâches de manière unifiée. Le modèle MAT proposé a été testé sur quatre benchmarks difficiles : TVSeries, THUMOS'14, HDD et EPIC-Kitchens-100, pour les tâches de détection d'action en ligne et d'anticipation, et il surpass significativement toutes les méthodes existantes. Le code est disponible à l'adresse suivante : https://github.com/Echo0125/Memory-and-Anticipation-Transformer.