HyperAIHyperAI

Command Palette

Search for a command to run...

VideoLLaMA 2 : Amélioration de la modélisation spatio-temporelle et de la compréhension audio dans les Video-LLMs

Résumé

Dans cet article, nous présentons VideoLLaMA 2, une série de grands modèles linguistiques vidéo (Video-LLMs) conçus pour améliorer la modélisation spatio-temporelle et la compréhension audio dans les tâches orientées vers la vidéo et l'audio. En s'appuyant sur son prédécesseur, VideoLLaMA 2 intègre un connecteur de convolution spatio-temporelle (STC) spécifique, qui capture efficacement les dynamiques spatiales et temporelles complexes des données vidéo. De plus, nous avons intégré une branche audio au modèle par le biais d'un entraînement conjoint, ce qui enrichit les capacités de compréhension multimodale du modèle en incorporant de manière fluide les indices sonores. Des évaluations approfondies sur des tâches de réponse à des questions vidéo à choix multiples (MC-VQA), de réponse à des questions vidéo ouvertes (OE-VQA) et de légendage vidéo (VC) montrent que VideoLLaMA 2 obtient régulièrement des résultats compétitifs parmi les modèles open source et se rapproche même de certains modèles propriétaires sur plusieurs benchmarks. De plus, VideoLLaMA 2 présente des améliorations raisonnables sur les benchmarks de réponse à des questions audio uniquement et audio-vidéo (AQA & OE-AVQA) par rapport aux modèles existants. Ces progrès soulignent la supériorité de VideoLLaMA 2 en matière de compréhension multimodale, fixant un nouveau standard pour les systèmes d'analyse vidéo intelligents. Tous les modèles sont rendus publics afin de faciliter des recherches ultérieures.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp