Command Palette

Search for a command to run...

7日前

TiViBench:Video生成モデルにおけるThink-in-Video推論のベンチマーク

TiViBench:Video生成モデルにおけるThink-in-Video推論のベンチマーク

要約

動画生成モデルの急速な進化により、その焦点は視覚的に現実的な出力を生成することから、物理的な妥当性や論理的一貫性を要するタスクへの対応へと移行している。しかし、Veo 3の「フレーム連鎖推論(chain-of-frames reasoning)」といった最近の革新にもかかわらず、これらのモデルが大規模言語モデル(LLM)と同様の推論能力を発揮できるかどうかは依然として不明である。既存のベンチマークは主に視覚的忠実性と時間的整合性を評価しており、高次の推論能力を十分に捉えていない。このギャップを埋めるために、本研究では画像から動画への生成(I2V)モデルの推論能力を評価することを目的とした階層的ベンチマーク「TiViBench」を提案する。TiViBenchは、以下の4つの次元にわたって推論能力を体系的に評価する:i)構造的推論および探索、ii)空間的・視覚的パターン推論、iii)記号的・論理的推論、および iv)行動計画およびタスク実行。これらは3段階の難易度に分類され、合計24の多様なタスクシナリオをカバーしている。広範な評価を通じて、商用モデル(例:Sora 2、Veo 3.1)がより高い推論潜在能力を示す一方で、オープンソースモデルは訓練規模やデータ多様性の制約により、未開拓の潜在能力を有していることが明らかになった。この潜在能力をさらに引き出すために、本研究では「VideoTPO」と呼ばれる、好み最適化(preference optimization)に着想を得たシンプルかつ効果的なテスト時戦略を導入する。VideoTPOは、生成候補に対してLLMによる自己分析を行い、強みと弱みを特定することで、追加の訓練やデータ、報酬モデルを一切必要とせずに推論性能を顕著に向上させる。本研究で提案するTiViBenchとVideoTPOは、動画生成モデルにおける推論能力の評価と向上を実現する道を開き、この新たな分野における今後の研究基盤を築くものである。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
TiViBench:Video生成モデルにおけるThink-in-Video推論のベンチマーク | 論文 | HyperAI超神経