HyperAIHyperAI
il y a 6 jours

Post-entraînement des modèles multimodaux grands pour vidéos : une analyse approfondie du raisonnement vidéo à l’aide de modèles multimodaux grands

Yunlong Tang, Jing Bi, Pinxin Liu, Zhenyu Pan, Zhangyun Tan, Qianxiang Shen, Jiani Liu, Hang Hua, Junjia Guo, Yunzhong Xiao, Chao Huang, Zhiyuan Wang, Susan Liang, Xinyi Liu, Yizhi Song, Yuhe Nie, Jia-Xing Zhong, Bozheng Li, Daiqing Qi, Ziyun Zeng, Ali Vosoughi, Luchuan Song, Zeliang Zhang, Daiki Shimada, Han Liu, Jiebo Luo, Chenliang Xu
Post-entraînement des modèles multimodaux grands pour vidéos : une analyse approfondie du raisonnement vidéo à l’aide de modèles multimodaux grands
Résumé

L’interprétation vidéo représente la frontière la plus exigeante en vision par ordinateur, nécessitant que les modèles raisonnent sur des relations spatio-temporelles complexes, des dépendances à long terme et des preuves multimodales. L’émergence récente des grands modèles multimodaux vidéo (Video-LMM), qui intègrent des encodeurs visuels à des modèles linguistiques puissants basés sur des décodeurs, a démontré des capacités remarquables dans les tâches d’interprétation vidéo. Toutefois, la phase cruciale qui transforme ces modèles d’un système de perception élémentaire en un moteur de raisonnement sophistiqué — le post-entraînement — reste fragmentée dans la littérature scientifique. Ce survol propose la première analyse exhaustive des méthodologies de post-entraînement pour les Video-LMM, s’appuyant sur trois piliers fondamentaux : le fine-tuning supervisé (SFT) avec chaîne de raisonnement (chain-of-thought), l’apprentissage par renforcement (RL) à partir d’objectifs vérifiables, et l’échelle au moment du test (TTS) par calcul d’inférence amélioré. Nous proposons une taxonomie structurée qui clarifie les rôles, les interconnexions et les adaptations spécifiques au domaine vidéo de ces techniques, tout en abordant des défis uniques tels que la localisation temporelle, l’ancrage spatio-temporel, l’efficacité sur les vidéos longues et l’intégration des preuves multimodales. À travers une analyse systématique de méthodes représentatives, nous synthétisons des principes de conception clés, des insights fondamentaux et des protocoles d’évaluation, tout en identifiant des défis ouverts critiques en matière de conception de récompenses, de scalabilité et d’optimisation coût-performances. Nous avons également recueilli des benchmarks, des jeux de données et des métriques essentiels afin de faciliter une évaluation rigoureuse de l’efficacité du post-entraînement. Ce survol vise à offrir aux chercheurs et praticiens un cadre unifié pour faire progresser les capacités des Video-LMM. Des ressources supplémentaires et les mises à jour sont maintenues à l’adresse suivante :https://github.com/yunlong10/Awesome-Video-LMM-Post-Training