HyperAI超神経

科学者の最初の試験:MLLMの認知能力を知覚、理解、推論を通じて探究する

Zhou, Yuhao ; Wang, Yiheng ; He, Xuming ; Xiao, Ruoyao ; Li, Zhiwei ; Feng, Qiantai ; Guo, Zijie ; Yang, Yuejin ; Wu, Hao ; Huang, Wenxuan ; Wei, Jiaqi ; Si, Dan ; Yao, Xiuqi ; Bu, Jia ; Huang, Haiwen ; Fu, Tianfan ; Tang, Shixiang ; Fei, Ben ; Zhou, Dongzhan ; Ling, Fenghua ; Lu, Yan ; Sun, Siqi ; Li, Chenhui ; Zheng, Guanjie ; Lv, Jiancheng ; Zhang, Wenlong ; Bai, Lei
公開日: 6/17/2025
科学者の最初の試験:MLLMの認知能力を知覚、理解、推論を通じて探究する
要約

科学的発見はますます複雑な多モーダル推論に依存しており、情報量の多い科学データと特定分野の専門知識に基づいています。専門的な科学ベンチマークによって強化された科学多モーダル大規模言語モデル(MLLMs)は、現実的なワークフローにおいてこの発見プロセスを大幅に向上させる可能性を持っています。しかし、現在の科学ベンチマークは主にMLLMsの知識理解能力を評価することに焦点を当てており、それらの知覚能力和推論能力が十分に評価されていないという問題があります。このギャップに対処するために、我々はScientists' First Exam (SFE) ベンチマークを提示します。SFEは、科学多モーダル大規模言語モデルの科学的認知能力を3つの相互に関連したレベルで評価することを目指しています:科学信号の知覚、科学属性の理解、科学的な比較推論。具体的には、SFEは3つの質問タイプにわたり66の高価値多モーダルタスクをカバーする830組の専門家検証済みVQAペアから構成されています。広範な実験により、最新のGPT-3とInternVL-3がSFEでそれぞれ34.08%と26.52%しか達成していないことが明らかになりました。これは、MLLMsが科学領域でのさらなる改善余地があることを示しています。我々はSFEで得られた洞察がAIによる科学的発見の一層の進展につながることを期待しています。