7ヶ月前

視覚質問応答

ドキュメント理解

ベンチマーク

AIインフラストラクチャ

自然言語処理

マルチモーダル

Yilun Zhao Chengye Wang Chuhan Li Arman Cohan

概要

本論文では、科学研究文献内のスキーマ図の解釈能力を評価するために特別に設計された最初のベンチマークであるMISS-QAを紹介します。MISS-QAは、465篇の科学論文から1,500件の専門家による注釈付き例を含んでいます。このベンチマークでは、モデルには研究概要を示すスキーマ図の解釈と、論文全体の文脈に基づいてそれに関連する情報探索型質問への回答が求められます。私たちはo4-mini、Gemini-2.5-Flash、Qwen2.5-VLを含む18種類の最先端マルチモーダル基盤モデルの性能を評価しました。これらのモデルと人間の専門家との間にMISS-QAにおいて顕著な性能差があることを明らかにしました。また、答えられない質問に対するモデルの性能分析や詳細な誤り分析を通じて、現在のモデルの強みと限界をさらに浮き彫りにし、マルチモーダル科学文献理解におけるモデル向上のために重要な洞察を提供しています。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

7ヶ月前

視覚質問応答

ドキュメント理解

ベンチマーク

AIインフラストラクチャ

自然言語処理

マルチモーダル

Yilun Zhao Chengye Wang Chuhan Li Arman Cohan

概要

本論文では、科学研究文献内のスキーマ図の解釈能力を評価するために特別に設計された最初のベンチマークであるMISS-QAを紹介します。MISS-QAは、465篇の科学論文から1,500件の専門家による注釈付き例を含んでいます。このベンチマークでは、モデルには研究概要を示すスキーマ図の解釈と、論文全体の文脈に基づいてそれに関連する情報探索型質問への回答が求められます。私たちはo4-mini、Gemini-2.5-Flash、Qwen2.5-VLを含む18種類の最先端マルチモーダル基盤モデルの性能を評価しました。これらのモデルと人間の専門家との間にMISS-QAにおいて顕著な性能差があることを明らかにしました。また、答えられない質問に対するモデルの性能分析や詳細な誤り分析を通じて、現在のモデルの強みと限界をさらに浮き彫りにし、マルチモーダル科学文献理解におけるモデル向上のために重要な洞察を提供しています。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

多モーダル基盤モデルはスキーマ図を理解できるか？科学論文の情報探索QAに関する実証研究 | 記事 | HyperAI超神経