Command Palette
Search for a command to run...

要約
「テキストによる思考」と「画像による思考」の枠組みは、大規模言語モデル(LLM)および視覚言語モデル(VLM)の推論能力を顕著に向上させている。しかし、これらの枠組みには固有の制約が存在する。(1)画像は一瞬の状態しか捉えられず、動的なプロセスや連続的な変化を表現できない点、(2)テキストと視覚が別々のモダリティとして分離されているため、統合的なマルチモーダル理解および生成が妨げられる点である。こうした制約を克服するため、本研究では、Sora-2 などの動画生成モデルを活用し、時間的枠組みを統一的に用いることで、視覚的推論と文的推論を橋渡しする「動画による思考(Thinking with Video)」という新しい枠組みを提案する。本研究の検証を支えるために、Video Thinking Benchmark(VideoThinkBench)を構築した。VideoThinkBench は、(1)視覚中心のタスク(例:Eyeballing Puzzles)、(2)文書中心のタスク(例:GSM8Kのサブセット、MMMU)の2つのタスクカテゴリを含む。評価の結果、Sora-2 が有効な推論能力を持つことが示された。視覚中心のタスクでは、Sora-2 は最新のSOTA(State-of-the-Art)VLMと概ね同等の性能を示し、Eyeballing Games などいくつかのタスクではVLMを上回った。文書中心のタスクでは、MATH で92%、MMMU で75.53%の正解率を達成した。さらに、これらの能力の発現源を体系的に分析した。また、自己一貫性(self-consistency)および文脈内学習(in-context learning)がSora-2の性能向上に寄与することも明らかになった。総合的に、本研究の成果は、動画生成モデルが統合的マルチモーダル理解・生成の可能性を秘めていることを示しており、「動画による思考」が統一的マルチモーダル推論の枠組みとして位置づけられうることを示唆している。