HyperAIHyperAI

Command Palette

Search for a command to run...

OST-Bench: オンライン空間時間シーン理解のMLLMの能力評価

JingLi Lin Chenming Zhu Runsen Xu Xiaohan Mao Xihui Liu Tai Wang Jiangmiao Pang

概要

最近のマルチモーダル大規模言語モデル(MLLMs)の進歩は、ビジョンと言語を統合して複雑な推論を行う能力において著しい成果を示しています。しかし、既存の多くのベンチマークは固定された事前記録済みの入力データを使用したオフライン設定での評価に焦点を当てています。そこで、OST-Benchという新しいベンチマークを導入します。このベンチマークは、シーンを積極的に探索するエージェントの視点からオンライン空間時間理解を評価するために設計されています。オンライン側面では、逐次的に取得される観測値を処理し推論する必要性が強調されます。また、空間時間成分では、現在の視覚入力を過去の記憶と統合して動的な空間推論を支援することが求められます。OST-Benchは、現実世界における具現化された知覚の課題をより正確に反映しています。効率的なデータ収集パイプラインに基づいて構築されたOST-Benchには、ScanNet、Matterport3D、およびARKitScenesから収集された1.4kのシーンと10kの質問-回答ペアが含まれています。私たちはOST-Benchでいくつかの主要なMLLMsを評価し、これらのモデルが複雑な空間時間推論が必要なタスクで不足していることを確認しました。オンライン設定下では、探査範囲が広がり記憶量が増えれば増すほど精度が低下します。さらに実験分析を通じて、モデル間で共通する誤りパターンを特定し、複雑な手がかりに基づく空間推論の要求と長期記憶検索の要件がそれぞれ異なる軸でモデル性能を大幅に低下させることを見出しました。これはオンライン具現化推論を改善するために解決すべき核心的な課題であることを示しています。本分野におけるさらなる研究と開発を促進するために、私たちのコード、データセット、およびベンチマークを利用できます。プロジェクトページは以下のURLです:https://rbler1234.github.io/OSTBench.github.io/


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
OST-Bench: オンライン空間時間シーン理解のMLLMの能力評価 | 記事 | HyperAI超神経