2 个月前
UniGeo:通过重写数学表达式统一几何逻辑推理
Jiaqi Chen; Tong Li; Jinghui Qin; Pan Lu; Liang Lin; Chongyu Chen; Xiaodan Liang

摘要
几何问题求解是评估深度模型高级多模态推理能力的一个广受认可的测试平台。在大多数现有研究中,两个主要的几何问题:计算和证明,通常被视为两个特定的任务,这阻碍了深度模型在其多个数学任务上的推理能力统一。然而,从本质上讲,这两个任务具有相似的问题表示形式和重叠的数学知识,这些可以提升深度模型在这两个任务上的理解和推理能力。因此,我们构建了一个大规模的统一几何问题基准数据集——UniGeo,该数据集包含4,998个计算问题和9,543个证明问题。每个证明问题都标注有多步证明过程及其理由和数学表达式。这些证明过程可以很容易地重新表述为与计算问题注释程序序列格式相同的证明序列。基于此,我们提出了一种统一的多任务几何变换器框架——Geoformer,该框架以序列生成的形式同时解决计算和证明问题,最终展示了通过统一公式化可以提升模型在这两个任务上的推理能力。此外,我们还提出了一种旨在预测问题解决方案中的数学表达式的数学表达预训练(Mathematical Expression Pretraining, MEP)方法,从而进一步改进Geoformer模型。在UniGeo数据集上的实验表明,我们提出的Geoformer模型在计算和证明问题上分别超过了特定任务模型NGS 5.6%和3.2%的准确率,取得了最先进的性能。