Ajustement de l'instruction vidéo avec des données synthétiques

Le développement de grands modèles multimodaux vidéo (LMMs) a été entravé par la difficulté de constituer de grandes quantités de données brutes de haute qualité provenant du web. Pour remédier à cette situation, nous proposons une approche alternative consistant à créer un jeu de données synthétiques de haute qualité spécifiquement destiné au suivi d'instructions vidéo, nommé LLaVA-Video-178K. Ce jeu de données inclut des tâches clés telles que la légendage détaillé, les questions-réponses (QA) ouvertes et les questions-réponses (QA) à choix multiples. En formant notre modèle sur ce jeu de données, en combinaison avec les données existantes pour l'ajustement des instructions visuelles, nous introduisons LLaVA-Video, un nouveau modèle multimodal vidéo. Nos expériences montrent que LLaVA-Video obtient d'excellents résultats sur diverses benchmarks vidéo, soulignant l'efficacité de notre jeu de données. Nous prévoyons de publier le jeu de données, son pipeline de génération et les points de contrôle du modèle.