HyperAI超神经

4 个月前

大型语言模型（LLMs）在推理任务上取得了显著进展，但最新研究发现，当推理问题复杂度超过一定阈值时，这类模型会突然失效。本文从“大型推理模型”（LRMs）的角度重新审视这一现象——即经过逐步推理与自我验证训练的LLMs。尽管LRMs在诸如NLGraph等图推理和推理基准测试中表现优异，甚至被宣称具备数学、物理、医学和法律等领域的通用推理与创新能力，但研究者通过更精细地提升问题复杂度发现，现有基准测试的实际复杂性仍十分有限。为此，研究团队构建了一个全新的数据集——深度推理数据集（DeepRD），并设计了一种可生成无限复杂度样本的生成机制，用于评估模型在图连通性与自然语言证明规划方面的表现。实验结果表明，当问题复杂度达到一定水平时，LRMs的性能急剧下降，且不具备泛化能力。进一步分析表明，尽管现实世界中的知识图谱、交互图和证明数据集中的大多数实例仍处于LRMs的成功范围内，但其长尾部分包含大量超出模型处理能力的复杂案例，暴露了潜在的严重失败风险。该研究揭示了LRMs在短期内仍具有实用价值，但也明确指出：当前模型的能力受限于训练数据的复杂度分布，亟需发展能够超越训练样本复杂度的新方法，以实现真正可靠的推理泛化能力。

相关链接

相关链接

相关链接

在线教程丨基于 500 万小时语音数据，Qwen3-TTS 实现 3 秒语音克隆及精细调控

在线教程丨基于 500 万小时语音数据，Qwen3-TTS 实现 3 秒语音克隆及精细调控

Command Palette

当推理模型开始出错：从精准到失准的临界点

相关链接

Command Palette

当推理模型开始出错：从精准到失准的临界点

相关链接

Command Palette

当推理模型开始出错：从精准到失准的临界点

相关链接

在线教程丨基于 500 万小时语音数据，Qwen3-TTS 实现 3 秒语音克隆及精细调控

在线教程丨基于 500 万小时语音数据，Qwen3-TTS 实现 3 秒语音克隆及精细调控