Command Palette

Search for a command to run...

6日前

ビデオを用いた推論:迷路解法タスクを用いたビデオモデルの推論能力の初めての評価

ビデオを用いた推論:迷路解法タスクを用いたビデオモデルの推論能力の初めての評価

要約

ビデオモデルは、忠実度の高い動画生成および一貫した運動ダイナミクスの実現において顕著な成果を上げている。言語モデルにおけるテキスト生成からテキストベースの推論への発展と同様に、ビデオモデルの進展に伴い、次の問いが浮かび上がる:ビデオモデルは、動画生成を通じて推論を行うことができるだろうか?テキストコーパスが離散的であるのに対し、ビデオは明確な空間配置と時間的連続性に基づいて推論を支えるため、空間的推論にとって理想的な基盤となる。本研究では、「ビデオによる推論(reasoning via video)」というパラダイムを検討し、ビデオモデルの推論能力を体系的に評価できるよう設計された包括的なベンチマーク「VR-Bench」を提案する。空間計画と多段階推論を内包する迷路解法タスクを基盤とし、VR-Benchは5種類の迷路タイプと多様な視覚スタイルを含む、合計7,920本の手続き的に生成された動画を収録している。実証分析の結果、SFT(Supervised Fine-Tuning)によりビデオモデルの推論能力を効率的に引き出すことが可能であることが明らかになった。ビデオモデルは推論過程においてより優れた空間認識能力を示し、最先端のVLM(視覚言語モデル)を上回り、さまざまなシナリオ、タスクおよび複雑度レベルにおいて良好な汎化性能を発揮した。さらに、推論時のスケーリング効果を発見した。推論時に多様なサンプリングを行うことで、推論の信頼性が10〜20%向上することが明らかになった。これらの結果は、空間推論タスクにおける「ビデオによる推論」の独自の潜在能力とスケーラビリティの高さを示している。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
ビデオを用いた推論:迷路解法タスクを用いたビデオモデルの推論能力の初めての評価 | 論文 | HyperAI超神経