S1-Bench:用于评估大型推理模型系统1思维能力的简单基准测试
Wenyuan Zhang, Shuaiyi Nie, Xinghua Zhang, Zefeng Zhang, Tingwen Liu
发布日期: 4/16/2025

摘要
我们介绍了S1-Bench,这是一个新颖的基准测试,旨在评估大型推理模型(LRMs)在简单任务中的表现,这些任务更倾向于直观的系统1思维而非深思熟虑的系统2推理。尽管LRMs通过明确的思维链在复杂推理任务中取得了显著突破,但它们对深度分析思维的依赖可能限制了其系统1思维能力。此外,目前缺乏评估LRMs在需要此类能力的任务中的表现的基准测试。为了填补这一空白,S1-Bench提供了一组简单、多样且自然清晰的问题,涵盖多个领域和语言,专门设计用于评估LRMs在这些任务中的表现。我们对22个LRMs进行了全面评估,结果显示这些模型在效率上存在显著不足,输出内容平均比传统小型语言模型(LLMs)长15.5倍。此外,LRMs通常在早期就能识别出正确答案,但继续进行不必要的深思熟虑,有些模型甚至产生了大量错误。这些发现突显了当前LRMs僵化的推理模式,并强调了实现能够适应任务复杂性的平衡双系统思维能力所需的实质性发展。