HyperAIHyperAI

Command Palette

Search for a command to run...

MeMViT : Vision Transformer Multiscale à Mémoire Augmentée pour une Reconnaissance Vidéo à Long Terme Efficace

Chao-Yuan Wu Yanghao Li Karttikeya Mangalam Haoqi Fan Bo Xiong Jitendra Malik Christoph Feichtenhofer

Résumé

Bien que les systèmes actuels de reconnaissance vidéo parviennent à analyser avec précision des instantanés ou des extraits courts, ils ne sont pas encore capables de relier les éléments d’information et de raisonner sur une période temporelle plus étendue. La plupart des architectures vidéo existantes ne peuvent traiter que moins de 5 secondes de vidéo sans atteindre des goulets d’étranglement computationnels ou mémoire.Dans cet article, nous proposons une nouvelle stratégie pour surmonter ce défi. Contrairement aux méthodes existantes qui tentent de traiter un plus grand nombre de trames simultanément, nous proposons de traiter les vidéos de manière en ligne, tout en mettant en mémoire « un contexte » à chaque itération. Grâce à cette mémoire, le modèle peut faire référence à des informations antérieures pour une modélisation à long terme, avec un coût marginal négligeable. À partir de cette idée, nous avons conçu MeMViT, un Vision Transformer multiscale enrichi de mémoire (Memory-augmented Multiscale Vision Transformer), dont la capacité temporelle est 30 fois supérieure à celle des modèles existants, tout en augmentant le calcul nécessaire de seulement 4,5 % — une augmentation qui représente plus de 3 000 % pour les méthodes traditionnelles. Sur une large gamme de configurations, la capacité accrue à modéliser sur de longues durées offerte par MeMViT se traduit par des gains significatifs et constants en précision de reconnaissance. MeMViT atteint des résultats de pointe sur les jeux de données AVA, EPIC-Kitchens-100 pour la classification d’actions, ainsi que pour la prédiction d’actions. Le code et les modèles sont disponibles à l’adresse suivante : https://github.com/facebookresearch/memvit.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
MeMViT : Vision Transformer Multiscale à Mémoire Augmentée pour une Reconnaissance Vidéo à Long Terme Efficace | Articles | HyperAI