7 个月前

自然语言处理

Yilun Zhao Chengye Wang Chuhan Li Arman Cohan

摘要

本文介绍了MISS-QA，这是首个专门设计用于评估模型在科学文献中解释示意图能力的基准测试。MISS-QA包含来自465篇科学论文的1,500个专家标注的示例。在这个基准测试中，模型需要解释展示研究概览的示意图，并根据论文的整体背景回答相应的问题。我们评估了包括o4-mini、Gemini-2.5-Flash和Qwen2.5-VL在内的18种前沿多模态基础模型的表现。结果显示，这些模型在MISS-QA上的表现与人类专家之间存在显著差距。通过对无法回答问题的模型表现分析以及详细的错误分析，我们进一步揭示了当前模型的优势和局限性，为提升模型在多模态科学文献理解方面的能力提供了关键见解。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

7 个月前

自然语言处理

Yilun Zhao Chengye Wang Chuhan Li Arman Cohan

摘要

本文介绍了MISS-QA，这是首个专门设计用于评估模型在科学文献中解释示意图能力的基准测试。MISS-QA包含来自465篇科学论文的1,500个专家标注的示例。在这个基准测试中，模型需要解释展示研究概览的示意图，并根据论文的整体背景回答相应的问题。我们评估了包括o4-mini、Gemini-2.5-Flash和Qwen2.5-VL在内的18种前沿多模态基础模型的表现。结果显示，这些模型在MISS-QA上的表现与人类专家之间存在显著差距。通过对无法回答问题的模型表现分析以及详细的错误分析，我们进一步揭示了当前模型的优势和局限性，为提升模型在多模态科学文献理解方面的能力提供了关键见解。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供