17 days ago
RE-IMAGINE:用于推理评估的符号基准合成
Xu, Xinnuo ; Lawrence, Rachel ; Dubey, Kshitij ; Pandey, Atharva ; Ueno, Risa ; Falck, Fabian ; Nori, Aditya V. ; Sharma, Rahul ; Sharma, Amit ; Gonzalez, Javier

摘要
近期,大型语言模型(LLMs)在推理基准测试中报告了高准确性。然而,目前尚不清楚这些观察到的结果是源于真正的推理能力还是对训练集的统计回忆。受因果阶梯(Pearl, 2009)及其三个层次(关联、干预和反事实)的启发,本文引入了RE-IMAGINE框架,用于表征大型语言模型中的推理能力层次结构,并提供了一个自动化管道,以生成不同层次的问题变体。通过在中间符号表示中修改问题,RE-IMAGINE可以生成任意数量的问题,这些问题仅靠记忆无法解决。此外,该框架具有通用性,可以在不同的推理领域中应用,包括数学、编程和逻辑。我们在四个广泛使用的基准测试上展示了该框架的应用,评估了几类大型语言模型的性能,并观察到当模型面对问题变体时性能有所下降。这些评估结果表明,过去的表现在一定程度上依赖于统计回忆,并为针对推理层次结构中各项技能的进一步研究打开了大门。