HyperAI

「テキストによる思考」と「画像による思考」の枠組みは、大規模言語モデル（LLM）および視覚言語モデル（VLM）の推論能力を顕著に向上させている。しかし、これらの枠組みには固有の制約が存在する。（1）画像は一瞬の状態しか捉えられず、動的なプロセスや連続的な変化を表現できない点、（2）テキストと視覚が別々のモダリティとして分離されているため、統合的なマルチモーダル理解および生成が妨げられる点である。こうした制約を克服するため、本研究では、Sora-2 などの動画生成モデルを活用し、時間的枠組みを統一的に用いることで、視覚的推論と文的推論を橋渡しする「動画による思考（Thinking with Video）」という新しい枠組みを提案する。本研究の検証を支えるために、Video Thinking Benchmark（VideoThinkBench）を構築した。VideoThinkBench は、（1）視覚中心のタスク（例：Eyeballing Puzzles）、（2）文書中心のタスク（例：GSM8Kのサブセット、MMMU）の2つのタスクカテゴリを含む。評価の結果、Sora-2 が有効な推論能力を持つことが示された。視覚中心のタスクでは、Sora-2 は最新のSOTA（State-of-the-Art）VLMと概ね同等の性能を示し、Eyeballing Games などいくつかのタスクではVLMを上回った。文書中心のタスクでは、MATH で92%、MMMU で75.53%の正解率を達成した。さらに、これらの能力の発現源を体系的に分析した。また、自己一貫性（self-consistency）および文脈内学習（in-context learning）がSora-2の性能向上に寄与することも明らかになった。総合的に、本研究の成果は、動画生成モデルが統合的マルチモーダル理解・生成の可能性を秘めていることを示しており、「動画による思考」が統一的マルチモーダル推論の枠組みとして位置づけられうることを示唆している。

ビデオによる思考：ビデオ生成を新たなマルチモーダル推論枠組みとして

Jingqi Tong Yurong Mou Hangcheng Li Mingzhe Li Yongzhuo Yang Ming Zhang Qiguang Chen Tianyi Liang Xiaomeng Hu Yining Zheng

要約

AI で AI を構築

Hyper Newsletters

Command Palette

ビデオによる思考：ビデオ生成を新たなマルチモーダル推論枠組みとして

Jingqi Tong Yurong Mou Hangcheng Li Mingzhe Li Yongzhuo Yang Ming Zhang Qiguang Chen Tianyi Liang Xiaomeng Hu Yining Zheng4 more

要約

AI で AI を構築

Hyper Newsletters

Jingqi Tong Yurong Mou Hangcheng Li Mingzhe Li Yongzhuo Yang Ming Zhang Qiguang Chen Tianyi Liang Xiaomeng Hu Yining Zheng