4 days ago
潜在推理综述
Rui-Jie Zhu, Tianhao Peng, Tianhao Cheng, Xingwei Qu, Jinfa Huang, Dawei Zhu, Hao Wang, Kaiwen Xue, Xuanliang Zhang, Yong Shan, Tianle Cai, Taylor Kergan, Assel Kembay, Andrew Smith, Chenghua Lin, Binh Nguyen, Yuqi Pan, Yuhong Chou, Zefan Cai, Zhenhe Wu, Yongchi Zhao, Tianyu Liu, Jian Yang, Wangchunshu Zhou, Chujie Zheng, Chongxuan Li, Yuyin Zhou, Zhoujun Li, Zhaoxiang Zhang, Jiaheng Liu, Ge Zhang, Wenhao Huang, Jason Eshraghian

摘要
大型语言模型(LLMs)已经展示了令人印象深刻的推理能力,尤其是在通过显式的链式思维(CoT)推理进行引导时,这种推理方法能够表达中间步骤。虽然CoT提高了模型的可解释性和准确性,但其对自然语言推理的依赖限制了模型的表达能力。潜在推理通过在模型的连续隐状态中完全执行多步推断来解决这一瓶颈,消除了基于标记的监督。为了推动潜在推理的研究,本综述提供了对新兴潜在推理领域的全面概述。我们首先探讨神经网络层作为推理计算基质的基础作用,强调层次表示如何支持复杂的转换过程。接下来,我们研究了多种潜在推理方法,包括基于激活的递归、隐状态传播以及压缩或内化显式推理痕迹的微调策略。最后,我们讨论了先进的范式,如通过掩码扩散模型实现的无限深度潜在推理,这使得全局一致且可逆的推理过程成为可能。通过统一这些视角,我们旨在澄清潜在推理的概念框架,并为LLM认知前沿的研究指明未来方向。相关的GitHub仓库收集了最新的论文和代码库,地址为:https://github.com/multimodal-art-projection/LatentCoT-Horizon/。