Command Palette
Search for a command to run...
多モーダル基盤モデルはスキーマ図を理解できるか?科学論文の情報探索QAに関する実証研究
多モーダル基盤モデルはスキーマ図を理解できるか?科学論文の情報探索QAに関する実証研究
Yilun Zhao Chengye Wang Chuhan Li Arman Cohan
概要
本論文では、科学研究文献内のスキーマ図の解釈能力を評価するために特別に設計された最初のベンチマークであるMISS-QAを紹介します。MISS-QAは、465篇の科学論文から1,500件の専門家による注釈付き例を含んでいます。このベンチマークでは、モデルには研究概要を示すスキーマ図の解釈と、論文全体の文脈に基づいてそれに関連する情報探索型質問への回答が求められます。私たちはo4-mini、Gemini-2.5-Flash、Qwen2.5-VLを含む18種類の最先端マルチモーダル基盤モデルの性能を評価しました。これらのモデルと人間の専門家との間にMISS-QAにおいて顕著な性能差があることを明らかにしました。また、答えられない質問に対するモデルの性能分析や詳細な誤り分析を通じて、現在のモデルの強みと限界をさらに浮き彫りにし、マルチモーダル科学文献理解におけるモデル向上のために重要な洞察を提供しています。