在野外掌握:用于现实世界多跳推理的变压器数据增强
Roman Abramov, Felix Steinbauer, Gjergji Kasneci
发布日期: 5/12/2025

摘要
变压器模型在众多自然语言处理(NLP)任务中取得了巨大成功,但在多步事实推理方面仍存在显著差距,尤其是在现实世界知识稀少的情况下。近期关于“grokking”(深度理解)的研究表明,一旦神经网络检测到潜在的逻辑模式,它们就能从记忆过渡到完美泛化——然而这些研究主要使用了小型、合成的任务。在本文中,我们首次将“grokking”扩展到现实世界的事实数据,并通过精心设计的合成数据增强现有的知识图谱,以提高推断事实与原子事实的比例(phi_r),使其超过实现“grokking”的阈值。令人惊讶的是,我们发现即使是事实错误的合成数据也能加强新兴的推理电路,而不是降低准确性,因为它迫使模型依赖关系结构而非单纯记忆。在多跳推理基准测试中,我们的方法在2WikiMultiHopQA上的准确率达到了95%-100%,显著优于强大的基线模型,并且匹配或超过了当前最先进的结果。我们进一步深入分析了增加phi_r如何驱动变压器内部泛化电路的形成。我们的研究结果表明,“grokking”基础的数据增强可以解锁大型语言模型中的隐含多跳推理能力,为更加稳健和可解释的事实推理打开了大门。