HyperAIHyperAI

Command Palette

Search for a command to run...

VideoMamba : Modèle d'espace d'état pour une compréhension vidéo efficace

Li Kunchang ; Li Xinhao ; Wang Yi ; He Yinan ; Wang Yali ; Wang Limin ; Qiao Yu

Résumé

Pour faire face aux défis doubles de la redondance locale et des dépendances globales dans la compréhension vidéo, cette étude adapte de manière innovante le Mamba au domaine vidéo. Le VideoMamba proposé surmonte les limitations des réseaux neuronaux convolutifs 3D existants et des transformateurs vidéo. Son opérateur à complexité linéaire permet une modélisation à long terme efficace, ce qui est crucial pour la compréhension de vidéos longues et en haute résolution. Des évaluations approfondies révèlent quatre capacités fondamentales du VideoMamba : (1) Évolutivité dans le domaine visuel sans préformation extensive sur de grands ensembles de données, grâce à une nouvelle technique d'auto-distillation ; (2) Sensibilité pour reconnaître des actions à court terme même avec des différences de mouvement fines ; (3) Supériorité dans la compréhension vidéo à long terme, montrant des avancées significatives par rapport aux modèles traditionnels basés sur les caractéristiques ; et (4) Compatibilité avec d'autres modalités, démontrant sa robustesse dans des contextes multi-modaux. Grâce à ces avantages distincts, le VideoMamba établit un nouveau standard pour la compréhension vidéo, offrant une solution évolutuelle et efficace pour une compréhension vidéo complète. L'ensemble du code et des modèles est disponible sur https://github.com/OpenGVLab/VideoMamba.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp