16日前

ShotBench: 視覚言語モデルにおける映画的な理解の専門家レベル

Hongbo Liu; Jingwen He; Yi Jin; Dian Zheng; Yuhao Dong; Fan Zhang; Ziqi Huang; Yinan He; Yangguang Li; Weichao Chen; Yu Qiao; Wanli Ouyang; Shengjie Zhao; Ziwei Liu

論文の詳細を見る

要約

映画の基本的な視覚言語である撮影技術は、物語、感情、および美的品質を伝える上で不可欠です。最近のビジョン・ランゲージ・モデル（VLMs）は強力な一般的な視覚理解能力を示していますが、個々のショットに埋め込まれた微妙な映画的文法を理解する能力についてはまだ十分に研究されておらず、堅牢な評価も不足しています。この重要なギャップは、細かい視覚的理解とAI支援動画生成の精度を制限しています。これを解決するために、我々は映画的言語理解のために特別に設計された包括的なベンチマーク ShotBench を導入します。これは200以上の著名な（主にアカデミー賞ノミネート作品）映画から慎重に選ばれた3,500を超える専門家による注釈付きQAペアを含んでおり、8つの主要な撮影技術次元を網羅しています。24の主要VLMsに対するShotBenchでの評価では、その大きな制約が明らかになりました：最上位のモデルでも平均正解率が60％未満であり、特に細かい視覚的ヒントや複雑な空間推論には苦戦しています。この分野の進歩を促進するために、我々は約7万件の映画的QAペアからなる大規模マルチモーダルデータセット ShotQA を構築しました。ShotQAを利用して、教師あり微調整とグループ相対ポリシー最適化を通じて ShotVL を開発しました。ShotVLはShotBenchにおいて既存のオープンソースおよびプロプライエタリモデル全てを大幅に上回り、新たな最先端の性能を確立しました。我々はこれらのモデル、データ、およびコードをオープンソース化し、AI駆動型映画理解と生成における重要な領域で急速な進歩を目指します。翻訳ポイント内容准确:「Vision-Language Models」 → 「ビジョン・ランゲージ・モデル（VLMs）」「fine-grained visual comprehension」 → 「細かい視覚的理解」「spatial reasoning」 → 「空間推論」「state-of-the-art」 → 「最先端」表达流畅:日语中使用了较多的被动句式和正式表达，如「示しています」「研究されていません」「選ばれています」等。避免了直译，使句子更加自然，例如「even the top-performing model achieves less than 60% average accuracy」翻译为「最上位のモデルでも平均正解率が60％未満であり」。表述正式:使用了正式的科技或学术写作风格，如「不可欠です」「制約が明らかになりました」「大幅に上回り」と等。避免了口语化的表达，确保文章的专业性和客观性。忠于原文:保持了原文的内容和结构，同时进行了适当的优化以适应日语读者的习惯。例如「To address this, we introduce \textbf{ShotBench}...」翻译为「これを解決するために、我々は...特別に設計された包括的なベンチマーク \textbf{ShotBench} を導入します。」希望这些翻译标准能够满足您的要求。如果有任何进一步的修改或调整，请随时告知。