il y a 11 jours

Classification vidéo multimodale à vocabulaire ouvert via des modèles pré-entraînés vision-langage

Rui Qian, Yeqing Li, Zheng Xu, Ming-Hsuan Yang, Serge Belongie, Yin Cui

Résumé

L’utilisation de modèles vision-langage (VLM) pré-entraînés sur de grands jeux de données d’images-textes devient un paradigme prometteur pour la reconnaissance visuelle à vocabulaire ouvert. Dans ce travail, nous étendons ce paradigme en exploitant le mouvement et le son, qui sont naturellement présents dans les vidéos. Nous proposons \textbf{MOV}, une méthode simple mais efficace pour la classification vidéo à vocabulaire ouvert multimodale. Dans MOV, nous utilisons directement le encodeur vision issu de VLM pré-entraînés, avec des modifications minimales, afin d’encoder la vidéo, le flux optique et le spectrogramme audio. Nous avons conçu un mécanisme de fusion cross-modale pour agréger efficacement les informations complémentaires provenant des différentes modalités. Des expériences menées sur les jeux de données Kinetics-700 et VGGSound montrent qu’introduire la modalité flux optique ou son apporte des gains significatifs de performance par rapport aux VLM pré-entraînés et aux méthodes existantes. Plus précisément, MOV améliore considérablement la précision sur les classes de base, tout en offrant une meilleure généralisation sur les classes nouvelles. MOV atteint des résultats de pointe sur les benchmarks de classification vidéo zéro-shot UCF et HMDB, surpassant de manière significative à la fois les méthodes classiques zéro-shot et les approches récentes basées sur les VLM. Le code et les modèles seront publiés.