HyperAI
il y a 16 jours

ShotBench : Compréhension Cinématographique de Niveau Expert dans les Modèles Vision-Langue

Hongbo Liu; Jingwen He; Yi Jin; Dian Zheng; Yuhao Dong; Fan Zhang; Ziqi Huang; Yinan He; Yangguang Li; Weichao Chen; Yu Qiao; Wanli Ouyang; Shengjie Zhao; Ziwei Liu
ShotBench : Compréhension Cinématographique de Niveau Expert dans les Modèles Vision-Langue
Résumé

La cinématographie, langage visuel fondamental du cinéma, est essentielle pour transmettre le récit, les émotions et la qualité esthétique. Bien que les modèles récents de Vision-Langue (VLMs) démontrent une compréhension visuelle générale solide, leur maîtrise de la grammaire cinématographique nuancée intégrée dans chaque plan reste largement inexplorée et manque d'évaluation robuste. Cette lacune critique limite à la fois la compréhension visuelle fine et la précision de la génération vidéo assistée par l'IA. Pour y remédier, nous présentons ShotBench, un benchmark complet spécifiquement conçu pour la compréhension du langage cinématographique. Il comprend plus de 3 500 paires question-réponse annotées par des experts provenant d'images et de séquences vidéo, soigneusement sélectionnées parmi plus de 200 films reconnus (principalement nommés aux Oscars) et couvrant huit dimensions clés de la cinématographie. Notre évaluation de 24 modèles VLMs leaders sur ShotBench met en lumière leurs limitations substantielles : même le modèle performant en tête n'atteint qu'une précision moyenne inférieure à 60 %, particulièrement en difficulté avec les indices visuels fins et le raisonnement spatial complexe. Pour stimuler les progrès dans ce domaine, nous avons construit ShotQA, un jeu de données multimodal à grande échelle composé d'environ 70 000 paires question-réponse cinématographiques. En utilisant ShotQA, nous développons ShotVL grâce à un ajustement supervisé et à une optimisation de politique relative par groupe. ShotVL surpasse significativement tous les modèles existants, open source ou propriétaires, sur ShotBench, établissant une nouvelle performance state-of-the-art (état de l'art). Nous mettons nos modèles, nos données et notre code en open source pour favoriser des progrès rapides dans ce domaine crucial de la compréhension et de la génération cinématographiques pilotées par l'IA.