20 天前

DeepSeek-R1 思维学:让我们探讨 LLM 推理

Marjanovi&#x107, , Sara Vera, Patel, Arkil, Adlakha, Vaibhav, Aghajohari, Milad, BehnamGhader, Parishad, Bhatia, Mehar, Khandelwal, Aditi, Kraft, Austin, Krojer, Benno, L&#xf9, , Xing Han, Meade, Nicholas, Shin, Dongchan, Kazemnejad, Amirhossein, Kamath, Gaurav, Mosbach, Marius, Sta&#x144, czak, Karolina, Reddy, Siva
DeepSeek-R1 思维学:让我们探讨 LLM 推理
摘要

大型推理模型(如 DeepSeek-R1)标志着大语言模型(LLM)处理复杂问题方式的根本性转变。与以往直接对给定输入生成答案不同,DeepSeek-R1 会构建详尽的多步推理链条,仿佛在“思考”问题之后才给出答案。这一推理过程对用户完全公开,为研究模型的推理行为提供了无限可能,也推动了“思辨学”(Thoughtology)这一新兴研究领域的兴起。基于对 DeepSeek-R1 推理基本构成单元的分类体系,我们的分析深入探讨了推理长度的影响与可控性、长序列或混乱上下文的管理能力、文化敏感性与安全问题,以及 DeepSeek-R1 在认知现象层面的表现,例如类人语言处理与世界建模能力。研究结果呈现出一幅细致而复杂的图景。特别值得注意的是,我们发现 DeepSeek-R1 存在一个“最优推理区间”——在该区间内,推理效果最佳;而过度延长推理时间反而会损害模型性能。此外,我们观察到 DeepSeek-R1 倾向于反复纠缠于先前已探索过的问题表述,从而阻碍了对新路径的进一步探索。最后,我们还发现,相较于其非推理型对应模型,DeepSeek-R1 在安全性方面存在显著漏洞,这种缺陷甚至可能波及那些经过安全对齐训练的大语言模型,构成潜在风险。