Multimodal ArXiv 由香港大学和北京大学于 2024 年推出,相关论文为「Multimodal ArXiv: A Dataset for Improving Scientific Comprehension of Large Vision-Language Models」,该成果已被 ACL 2024 接受。
该数据集由 ArXivCap 和 ArXivQA 组成,以增强 LVLM 的科学理解能力。
ArXivCap 是一个图形标题数据集,包含 640 万张图像和 390 万条标题,来源于 572K 篇涵盖各个科学领域的 ArXiv 论文。
借鉴 ArXivCap,研究团队引入了 ArXivQA,这是一个通过提示基于科学图形的 GPT-4V 生成的问答数据集。 ArXivQA 极大地增强了开源 LVLM 的数学推理能力,在多模态数学推理基准上实现了 10.4% 的绝对准确率提升。