5ヶ月前

ベンチマーク

マルチモーダル

視覚質問応答

AIインフラストラクチャ

マルチモーダル

Mengdi Jia Zekun Qi Shaochen Zhang Wenyao Zhang Xinqiang Yu et al

概要

空間的推論は認知心理学における重要な側面であり、現在の視覚言語モデル（VLM）にとって依然として主要な課題である。これまでの多くの研究では、左右の区別、近接・遠隔の識別、物体の数え上げといった基本的な空間関係の理解を評価または向上させることが目指されてきたが、これらのタスクは空間的推論の最も基礎的なレベルに過ぎない。本研究では、認知心理学に基づき、包括的かつ挑戦的な空間的推論のベンチマーク「OmniSpatial」を提案する。OmniSpatialは、動的推論、複雑な空間論理、空間的相互作用、視点の把握の4つの主要なカテゴリに加え、50の細分化されたサブカテゴリをカバーしている。インターネットからのデータ収集と丁寧な手動アノテーションを経て、1,500組以上の質問-回答ペアを構築した。広範な実験の結果、オープンソースおよびクローズドソースの両方のVLM、および既存の推論モデル・空間理解モデルにおいて、包括的な空間的推論能力に顕著な限界が確認された。さらに、失敗事例を分析し、今後の研究における有望な方向性を提案する。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

5ヶ月前

ベンチマーク

マルチモーダル

視覚質問応答

AIインフラストラクチャ

マルチモーダル

Mengdi Jia Zekun Qi Shaochen Zhang Wenyao Zhang Xinqiang Yu et al

概要

空間的推論は認知心理学における重要な側面であり、現在の視覚言語モデル（VLM）にとって依然として主要な課題である。これまでの多くの研究では、左右の区別、近接・遠隔の識別、物体の数え上げといった基本的な空間関係の理解を評価または向上させることが目指されてきたが、これらのタスクは空間的推論の最も基礎的なレベルに過ぎない。本研究では、認知心理学に基づき、包括的かつ挑戦的な空間的推論のベンチマーク「OmniSpatial」を提案する。OmniSpatialは、動的推論、複雑な空間論理、空間的相互作用、視点の把握の4つの主要なカテゴリに加え、50の細分化されたサブカテゴリをカバーしている。インターネットからのデータ収集と丁寧な手動アノテーションを経て、1,500組以上の質問-回答ペアを構築した。広範な実験の結果、オープンソースおよびクローズドソースの両方のVLM、および既存の推論モデル・空間理解モデルにおいて、包括的な空間的推論能力に顕著な限界が確認された。さらに、失敗事例を分析し、今後の研究における有望な方向性を提案する。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています