17 天前

APOLLO:面向长文本数值推理的优化训练方法

Jiashuo Sun, Hang Zhang, Chen Lin, Xiangdong Su, Yeyun Gong, Jian Guo
APOLLO:面向长文本数值推理的优化训练方法
摘要

长篇金融分析中的数值推理旨在生成一个推理程序,以计算给定问题的正确答案。以往的研究多采用检索-生成框架:检索模块从长篇文档中筛选关键事实,生成模块则基于所检索的事实生成推理程序。然而,这些方法将所有事实视为同等重要,未区分含数值与不含数值事实的贡献差异。同时,在监督训练过程中忽略了程序的一致性,导致训练准确率和程序多样性较低。为解决上述问题,我们提出了APOLLO方法,以优化长篇数值推理框架。在检索模块中,我们引入一种基于数值感知的负采样策略,使检索器能够更精准地区分关键数值事实。在生成模块中,我们设计了基于程序执行结果一致性的强化学习机制,并结合目标程序增强策略,以提升生成程序的可靠性与多样性。在FinQA与ConvFinQA排行榜上的实验结果验证了所提方法的有效性,取得了新的最先进性能。