当推理模型开始出错:从精准到失准的临界点
大型语言模型(LLMs)在推理任务上取得了显著进展,但最新研究发现,当推理问题复杂度超过一定阈值时,这类模型会突然失效。本文从“大型推理模型”(LRMs)的角度重新审视这一现象——即经过逐步推理与自我验证训练的LLMs。尽管LRMs在诸如NLGraph等图推理和推理基准测试中表现优异,甚至被宣称具备数学、物理、医学和法律等领域的通用推理与创新能力,但研究者通过更精细地提升问题复杂度发现,现有基准测试的实际复杂性仍十分有限。 为此,研究团队构建了一个全新的数据集——深度推理数据集(DeepRD),并设计了一种可生成无限复杂度样本的生成机制,用于评估模型在图连通性与自然语言证明规划方面的表现。实验结果表明,当问题复杂度达到一定水平时,LRMs的性能急剧下降,且不具备泛化能力。 进一步分析表明,尽管现实世界中的知识图谱、交互图和证明数据集中的大多数实例仍处于LRMs的成功范围内,但其长尾部分包含大量超出模型处理能力的复杂案例,暴露了潜在的严重失败风险。 该研究揭示了LRMs在短期内仍具有实用价值,但也明确指出:当前模型的能力受限于训练数据的复杂度分布,亟需发展能够超越训练样本复杂度的新方法,以实现真正可靠的推理泛化能力。
