Command Palette

Search for a command to run...

17日前

ビデオによる思考:ビデオ生成を新たなマルチモーダル推論枠組みとして

ビデオによる思考:ビデオ生成を新たなマルチモーダル推論枠組みとして

要約

「テキストによる思考」と「画像による思考」の枠組みは、大規模言語モデル(LLM)および視覚言語モデル(VLM)の推論能力を顕著に向上させている。しかし、これらの枠組みには固有の制約が存在する。(1)画像は一瞬の状態しか捉えられず、動的なプロセスや連続的な変化を表現できない点、(2)テキストと視覚が別々のモダリティとして分離されているため、統合的なマルチモーダル理解および生成が妨げられる点である。こうした制約を克服するため、本研究では、Sora-2 などの動画生成モデルを活用し、時間的枠組みを統一的に用いることで、視覚的推論と文的推論を橋渡しする「動画による思考(Thinking with Video)」という新しい枠組みを提案する。本研究の検証を支えるために、Video Thinking Benchmark(VideoThinkBench)を構築した。VideoThinkBench は、(1)視覚中心のタスク(例:Eyeballing Puzzles)、(2)文書中心のタスク(例:GSM8Kのサブセット、MMMU)の2つのタスクカテゴリを含む。評価の結果、Sora-2 が有効な推論能力を持つことが示された。視覚中心のタスクでは、Sora-2 は最新のSOTA(State-of-the-Art)VLMと概ね同等の性能を示し、Eyeballing Games などいくつかのタスクではVLMを上回った。文書中心のタスクでは、MATH で92%、MMMU で75.53%の正解率を達成した。さらに、これらの能力の発現源を体系的に分析した。また、自己一貫性(self-consistency)および文脈内学習(in-context learning)がSora-2の性能向上に寄与することも明らかになった。総合的に、本研究の成果は、動画生成モデルが統合的マルチモーダル理解・生成の可能性を秘めていることを示しており、「動画による思考」が統一的マルチモーダル推論の枠組みとして位置づけられうることを示唆している。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
ビデオによる思考:ビデオ生成を新たなマルチモーダル推論枠組みとして | 論文 | HyperAI超神経