5ヶ月前

マルチモーダル

ベンチマーク

AIインフラストラクチャ

アプローチ／フレームワーク

マルチモーダル

Pranav Pawar Kavish Shah Akshat Bhalani Komal Kasat Dev Mittal Hadi Gala Deepali Patil Nikita Raichada Monali Deshmukh

概要

視覚言語モデル（VLM）の性能がますます高度化する中、その推論能力に対する評価がますます厳しくなっている。これらのモデルは多くのタスクにおいて優れた成果を上げているが、物理学をはじめとする基本的な科学的原則に対する理解は、依然として未開拓の領域である。こうした能力の進展を反映するため、2次元物理学に関する理解度を厳密に評価できる、新規かつアクセスしやすいフレームワークを提案する。本フレームワークは、4つの主要な分野（投射運動、衝突力学、力学、流体力学）にわたる400以上もの多様な問題を生成する実用的なシナリオ生成器を特徴としている。最先端の4つのVLMを包括的に評価した結果、モデルの規模と推論能力の間に強い相関が見られ、最も優れた性能を発揮したQwen2.5-VL-7Bは総合スコア0.815を達成した。また、公式に基づく問題ではモデルが優れた結果を出す一方で、抽象的な空間的推論を要する分野では顕著な困難を示すことが明らかになった。本フレームワークの設計を通じて、VLMにおける科学的推論の研究を民主化し、その能力と限界に関するより深い知見を促進することを目的としている。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

5ヶ月前

マルチモーダル

ベンチマーク

AIインフラストラクチャ

アプローチ／フレームワーク

マルチモーダル

Pranav Pawar Kavish Shah Akshat Bhalani Komal Kasat Dev Mittal Hadi Gala Deepali Patil Nikita Raichada Monali Deshmukh

概要

視覚言語モデル（VLM）の性能がますます高度化する中、その推論能力に対する評価がますます厳しくなっている。これらのモデルは多くのタスクにおいて優れた成果を上げているが、物理学をはじめとする基本的な科学的原則に対する理解は、依然として未開拓の領域である。こうした能力の進展を反映するため、2次元物理学に関する理解度を厳密に評価できる、新規かつアクセスしやすいフレームワークを提案する。本フレームワークは、4つの主要な分野（投射運動、衝突力学、力学、流体力学）にわたる400以上もの多様な問題を生成する実用的なシナリオ生成器を特徴としている。最先端の4つのVLMを包括的に評価した結果、モデルの規模と推論能力の間に強い相関が見られ、最も優れた性能を発揮したQwen2.5-VL-7Bは総合スコア0.815を達成した。また、公式に基づく問題ではモデルが優れた結果を出す一方で、抽象的な空間的推論を要する分野では顕著な困難を示すことが明らかになった。本フレームワークの設計を通じて、VLMにおける科学的推論の研究を民主化し、その能力と限界に関するより深い知見を促進することを目的としている。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

解釈可能な物理学的推論と視覚言語モデルにおけるパフォーマンス分類 | 記事 | HyperAI超神経