HyperAIHyperAI

Command Palette

Search for a command to run...

Classification vidéo multimodale à vocabulaire ouvert via des modèles pré-entraînés vision-langage

Rui Qian Yeqing Li Zheng Xu Ming-Hsuan Yang Serge Belongie Yin Cui

Résumé

L’utilisation de modèles vision-langage (VLM) pré-entraînés sur de grands jeux de données d’images-textes devient un paradigme prometteur pour la reconnaissance visuelle à vocabulaire ouvert. Dans ce travail, nous étendons ce paradigme en exploitant le mouvement et le son, qui sont naturellement présents dans les vidéos. Nous proposons \textbf{MOV}, une méthode simple mais efficace pour la classification vidéo à vocabulaire ouvert multimodale. Dans MOV, nous utilisons directement le encodeur vision issu de VLM pré-entraînés, avec des modifications minimales, afin d’encoder la vidéo, le flux optique et le spectrogramme audio. Nous avons conçu un mécanisme de fusion cross-modale pour agréger efficacement les informations complémentaires provenant des différentes modalités. Des expériences menées sur les jeux de données Kinetics-700 et VGGSound montrent qu’introduire la modalité flux optique ou son apporte des gains significatifs de performance par rapport aux VLM pré-entraînés et aux méthodes existantes. Plus précisément, MOV améliore considérablement la précision sur les classes de base, tout en offrant une meilleure généralisation sur les classes nouvelles. MOV atteint des résultats de pointe sur les benchmarks de classification vidéo zéro-shot UCF et HMDB, surpassant de manière significative à la fois les méthodes classiques zéro-shot et les approches récentes basées sur les VLM. Le code et les modèles seront publiés.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Classification vidéo multimodale à vocabulaire ouvert via des modèles pré-entraînés vision-langage | Articles | HyperAI