3ヶ月前

ベンチマーク

視覚質問応答

AIインフラストラクチャ

マルチモーダル

Yang Luo Xuanlei Zhao Baijiong Lin Lingting Zhu Liyao Tang Yuqi Liu Ying-Cong Chen Shengju Qian Xin Wang Yang You

概要

最近の生成型動画モデル（例：Veo-3）の進展は、驚くべきゼロショット推論能力を示しており、体系的かつ信頼性の高い評価手法の必要性が高まっている。本研究では、構造的問題解決、空間認知、パターンに基づく推論、物理的ダイナミクスの4つの主要次元における動画推論能力を評価することを目的としたベンチマーク「V-ReasonBench」を提案する。このベンチマークは合成データと実世界の画像系列の両方を基盤として構築されており、再現可能でスケーラブルかつ曖昧さのない、答えの検証が可能な多様なタスクを提供する。最先端の6つの動画モデルに対する評価により、構造的・空間的・パターンに基づく・物理的推論の各次元において明確な差異が明らかになった。さらに、優れた画像モデルとの比較を通じて、一般的な誤生成（ホールーシュネーション）の挙動を分析し、動画の長さが「フレーム連鎖推論（Chain-of-Frames reasoning）」に与える影響についても検討した。総じて、V-ReasonBenchは動画推論能力を統一的かつ再現可能に測定するフレームワークを提供し、より信頼性が高く人間の価値観に整合した推論能力を持つモデルの開発を支援することを目的としている。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

3ヶ月前

ベンチマーク

視覚質問応答

AIインフラストラクチャ

マルチモーダル

Yang Luo Xuanlei Zhao Baijiong Lin Lingting Zhu Liyao Tang Yuqi Liu Ying-Cong Chen Shengju Qian Xin Wang Yang You

概要

最近の生成型動画モデル（例：Veo-3）の進展は、驚くべきゼロショット推論能力を示しており、体系的かつ信頼性の高い評価手法の必要性が高まっている。本研究では、構造的問題解決、空間認知、パターンに基づく推論、物理的ダイナミクスの4つの主要次元における動画推論能力を評価することを目的としたベンチマーク「V-ReasonBench」を提案する。このベンチマークは合成データと実世界の画像系列の両方を基盤として構築されており、再現可能でスケーラブルかつ曖昧さのない、答えの検証が可能な多様なタスクを提供する。最先端の6つの動画モデルに対する評価により、構造的・空間的・パターンに基づく・物理的推論の各次元において明確な差異が明らかになった。さらに、優れた画像モデルとの比較を通じて、一般的な誤生成（ホールーシュネーション）の挙動を分析し、動画の長さが「フレーム連鎖推論（Chain-of-Frames reasoning）」に与える影響についても検討した。総じて、V-ReasonBenchは動画推論能力を統一的かつ再現可能に測定するフレームワークを提供し、より信頼性が高く人間の価値観に整合した推論能力を持つモデルの開発を支援することを目的としている。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

V-ReasonBench：動画生成モデル向け統合推論ベンチマークセットへの道 | 記事 | HyperAI超神経