HyperAIHyperAI

Command Palette

Search for a command to run...

Multimodal ArXiv 科学理解数据集

Discuss on Discord

Date

1 年前

Organization

Peking University
The University of Hong Kong

Paper URL

arxiv.org

Multimodal ArXiv 由香港大学和北京大学于 2024 年推出,相关论文为「Multimodal ArXiv: A Dataset for Improving Scientific Comprehension of Large Vision-Language Models」,该成果已被 ACL 2024 接受。

该数据集由 ArXivCap 和 ArXivQA 组成,以增强 LVLM 的科学理解能力。

ArXivCap 是一个图形标题数据集,包含 640 万张图像和 390 万条标题,来源于 572K 篇涵盖各个科学领域的 ArXiv 论文。

借鉴 ArXivCap,研究团队引入了 ArXivQA,这是一个通过提示基于科学图形的 GPT-4V 生成的问答数据集。 ArXivQA 极大地增强了开源 LVLM 的数学推理能力,在多模态数学推理基准上实现了 10.4% 的绝对准确率提升。

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供