il y a 9 jours

MeMViT : Vision Transformer Multiscale à Mémoire Augmentée pour une Reconnaissance Vidéo à Long Terme Efficace

Chao-Yuan Wu, Yanghao Li, Karttikeya Mangalam, Haoqi Fan, Bo Xiong, Jitendra Malik, Christoph Feichtenhofer

Résumé

Bien que les systèmes actuels de reconnaissance vidéo parviennent à analyser avec précision des instantanés ou des extraits courts, ils ne sont pas encore capables de relier les éléments d’information et de raisonner sur une période temporelle plus étendue. La plupart des architectures vidéo existantes ne peuvent traiter que moins de 5 secondes de vidéo sans atteindre des goulets d’étranglement computationnels ou mémoire.Dans cet article, nous proposons une nouvelle stratégie pour surmonter ce défi. Contrairement aux méthodes existantes qui tentent de traiter un plus grand nombre de trames simultanément, nous proposons de traiter les vidéos de manière en ligne, tout en mettant en mémoire « un contexte » à chaque itération. Grâce à cette mémoire, le modèle peut faire référence à des informations antérieures pour une modélisation à long terme, avec un coût marginal négligeable. À partir de cette idée, nous avons conçu MeMViT, un Vision Transformer multiscale enrichi de mémoire (Memory-augmented Multiscale Vision Transformer), dont la capacité temporelle est 30 fois supérieure à celle des modèles existants, tout en augmentant le calcul nécessaire de seulement 4,5 % — une augmentation qui représente plus de 3 000 % pour les méthodes traditionnelles. Sur une large gamme de configurations, la capacité accrue à modéliser sur de longues durées offerte par MeMViT se traduit par des gains significatifs et constants en précision de reconnaissance. MeMViT atteint des résultats de pointe sur les jeux de données AVA, EPIC-Kitchens-100 pour la classification d’actions, ainsi que pour la prédiction d’actions. Le code et les modèles sont disponibles à l’adresse suivante : https://github.com/facebookresearch/memvit.