8ヶ月前

マルチモーダル

ベンチマーク

AIインフラストラクチャ

アプローチ／フレームワーク

マルチモーダル

Zhou Yuhao Wang Yiheng He Xuming Xiao Ruoyao Li Zhiwei

概要

科学的発見はますます複雑な多モーダル推論に依存しており、情報量の多い科学データと特定分野の専門知識に基づいています。専門的な科学ベンチマークによって強化された科学多モーダル大規模言語モデル（MLLMs）は、現実的なワークフローにおいてこの発見プロセスを大幅に向上させる可能性を持っています。しかし、現在の科学ベンチマークは主にMLLMsの知識理解能力を評価することに焦点を当てており、それらの知覚能力和推論能力が十分に評価されていないという問題があります。このギャップに対処するために、我々はScientists' First Exam (SFE) ベンチマークを提示します。SFEは、科学多モーダル大規模言語モデルの科学的認知能力を3つの相互に関連したレベルで評価することを目指しています：科学信号の知覚、科学属性の理解、科学的な比較推論。具体的には、SFEは3つの質問タイプにわたり66の高価値多モーダルタスクをカバーする830組の専門家検証済みVQAペアから構成されています。広範な実験により、最新のGPT-3とInternVL-3がSFEでそれぞれ34.08%と26.52%しか達成していないことが明らかになりました。これは、MLLMsが科学領域でのさらなる改善余地があることを示しています。我々はSFEで得られた洞察がAIによる科学的発見の一層の進展につながることを期待しています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

マルチモーダル

ベンチマーク

AIインフラストラクチャ

アプローチ／フレームワーク

マルチモーダル

Zhou Yuhao Wang Yiheng He Xuming Xiao Ruoyao Li Zhiwei

概要

科学的発見はますます複雑な多モーダル推論に依存しており、情報量の多い科学データと特定分野の専門知識に基づいています。専門的な科学ベンチマークによって強化された科学多モーダル大規模言語モデル（MLLMs）は、現実的なワークフローにおいてこの発見プロセスを大幅に向上させる可能性を持っています。しかし、現在の科学ベンチマークは主にMLLMsの知識理解能力を評価することに焦点を当てており、それらの知覚能力和推論能力が十分に評価されていないという問題があります。このギャップに対処するために、我々はScientists' First Exam (SFE) ベンチマークを提示します。SFEは、科学多モーダル大規模言語モデルの科学的認知能力を3つの相互に関連したレベルで評価することを目指しています：科学信号の知覚、科学属性の理解、科学的な比較推論。具体的には、SFEは3つの質問タイプにわたり66の高価値多モーダルタスクをカバーする830組の専門家検証済みVQAペアから構成されています。広範な実験により、最新のGPT-3とInternVL-3がSFEでそれぞれ34.08%と26.52%しか達成していないことが明らかになりました。これは、MLLMsが科学領域でのさらなる改善余地があることを示しています。我々はSFEで得られた洞察がAIによる科学的発見の一層の進展につながることを期待しています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています