17 天前
GeoQA:面向多模态数值推理的几何问答基准
Jiaqi Chen, Jianheng Tang, Jinghui Qin, Xiaodan Liang, Lingbo Liu, Eric P. Xing, Liang Lin

摘要
自动数学问题求解近年来作为一项长期存在的人工智能评估基准,受到越来越多的关注。本文聚焦于几何问题的求解,这类问题需要对文本描述、视觉图表以及几何定理知识具备全面的理解能力。然而,现有方法高度依赖人工设计的规则,且仅在小规模数据集上进行评估。为此,我们提出了一个名为GeoQA的几何问答数据集,包含4,998道几何问题及其对应的程序标注,这些程序清晰地展示了问题的求解过程。与另一个公开可用的数据集GeoS相比,GeoQA的规模扩大了25倍,其程序标注为未来在显式、可解释性数值推理方面的研究提供了切实可行的测试平台。此外,我们提出了一种神经几何求解器(Neural Geometric Solver, NGS),通过全面解析多模态信息并生成可解释的程序来解决几何问题。为进一步提升跨模态语义表示能力,我们在NGS中引入了多种自监督辅助任务。在GeoQA上的大量实验验证了所提出的NGS架构及其辅助任务的有效性。然而,当前模型的性能仍显著低于人类水平,表明该领域仍有巨大的研究空间。我们的基准数据集与代码已开源,地址为:https://github.com/chen-judge/GeoQA。