VideoRewardBench : Évaluation Complète des Modèles de Récompense Multimodaux pour la Compréhension Vidéo
VideoRewardBench : Évaluation Complète des Modèles de Récompense Multimodaux pour la Compréhension Vidéo
Zhihong Zhang Xiaojian Huang Jin Xu Zhuodong Luo Xinzhi Wang Jiansheng Wei Xuejin Chen

Résumé
Les modèles de récompense multimodaux (MRMs) jouent un rôle fondamental dans l’entraînement, l’inférence et l’évaluation des modèles de vision et de langage à grande échelle (LVLM), en évaluant la qualité des réponses générées. Toutefois, les benchmarks existants pour l’évaluation des MRMs dans le domaine vidéo souffrent d’un nombre limité et d’une faible diversité de questions, d’un manque de dimensions d’évaluation complètes, ainsi que d’une évaluation insuffisante des différents types de MRMs. Pour combler ces lacunes, nous introduisons VideoRewardBench, le premier benchmark complet couvrant quatre aspects clés de la compréhension vidéo : la perception, les connaissances, le raisonnement et la sécurité. Grâce à notre pipeline de données assistée par l’IA, nous avons constitué un ensemble de données de préférences de haute qualité comprenant 1 563 échantillons annotés, incluant 1 482 vidéos uniques et 1 559 questions distinctes — soit 15 fois plus que le nombre maximum de questions dans le benchmark antérieur le plus riche en questions. Chaque échantillon est une triplet composé d’un prompt vidéo-texte, d’une réponse choisie et d’une réponse rejetée. Nous menons également une évaluation approfondie de 28 modèles de récompense multimodaux répartis en trois catégories : génératifs, discriminatifs et semi-échelonnés. Les résultats montrent que même le modèle leader GPT-4o atteint seulement 57,0 % de précision globale, tandis que le meilleur modèle open-source actuel, Qwen2.5-VL-72B, n’obtient que 53,3 %. Notre analyse révèle en outre trois constatations clés : (i) les MRMs entraînés par apprentissage par renforcement (RL) ne présentent pas nécessairement une meilleure généralisation intermodale que ceux entraînés sans RL ; (ii) à l’exception des MRMs discriminatifs, les autres types de MRMs, quelle que soit leur capacité, peuvent bénéficier de l’augmentation à l’époque d’inférence ; (iii) les variations du nombre d’images (frames) dans la vidéo d’entrée ont des effets différents selon les types de MRMs. Nous estimons que VideoRewardBench constitue un benchmark exigeant et précieux pour faire progresser l’évaluation et le développement des MRMs dans le domaine vidéo.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec co-codage IA gratuit, environnement prêt à l'emploi et meilleur prix de GPU.