
摘要
近期的大规模推理模型(LRMs)在特定任务的基准测试中取得了显著进展,但其评估方法仍受制于孤立的问题解决范式。现有的基准测试主要通过顺序测试评估单个问题的推理能力,导致了几个关键限制:(1) 对数据污染的敏感性和较低的挑战性(例如,DeepSeek-R1 在 MATH500 上达到了 97.0% 的准确率),迫使人们不断投入大量人力成本来创建新的问题;(2) 未能在多情境压力下评估模型,这是实际部署中的一个关键需求。为了弥合这一差距,我们提出了 REST(通过同时测试进行推理评估),这是一种压力测试框架,可以同时向大规模推理模型呈现多个问题。除了基本的推理能力外,REST 还特别评估了几种未充分测试的能力:上下文优先级分配、跨问题干扰抵抗和动态认知负荷管理。我们的评估揭示了几个引人注目的发现:即使是当前最先进的模型如 DeepSeek-R1,在压力测试下也表现出显著的性能下降。尤为重要的是,REST 比现有基准测试显示出更强的区分能力,揭示了在单个问题评估中表现相似且接近天花板水平的不同模型之间的显著性能差异。从我们的分析中还得出了一些重要的机制见解:(1) “过度思考陷阱” 是导致性能下降的关键因素之一;(2) 使用“长到短”(long2short)技术训练的模型在 REST 下保留了更多的单个问题性能准确性,优于传统训练方法下的模型。这些结果确立了 REST 作为一种成本效益高、面向未来的评估范式,更好地反映了现实世界的推理需求,并减少了对持续人工标注的依赖。