新基准BRAINTEASERS亮相:478道精选逻辑与数学难题挑战AI“真”智慧
近日,美国斯坦福大学和合作者构建了一个名为BRAINTEASERS的新Benchmark,共收录了478道由人类专家精选的逻辑和数学题目。研究团队在多个主流大模型系统上进行了测试,包括OpenAI o3、Gemini、DeepSeek R1等。他们发现了一些重要的现象: 首先,模型能够生成创造性的解法,但在面对难题时,往往会退回到暴力枚举的方法;其次,真实的提示(hints)非常有效,尤其是在复杂的问题中可以大幅提高准确性;再者,即使将问题从自然语言改写成数学表达式,也仅能带来有限的改进,说明模型对“问题意图”本身的深层次理解还不够;最后,模型在自我纠错任务中容易被误导,即便是正确的人类编写的答案,也可能因为在提示中被“暗 示”而误认为错的。 这些现象在评测中虽难观察,但深入分析推理过程后变得一目了然。例如,在一次实验中,OpenAI o3被给予一个数字排列问题及其三个提示,其中一个提示实际上是关键线索,利用它可以大幅缩小搜索空间。然而,模型最终选择将其保留到最后使用,并可能因为错误地将长文本视为更复杂的内容而忽视其潜在价值,这实际上是一种人类常见的认知偏差现象。 研究团队向领域能力专家展示成果后收到了不少正面反馈,如:“你们不仅做了一个有意义的 benchmark,还真正推进了模型的‘内部思维’。”此外,“把‘暴力 vs 创造性’量化出来,是非常有价值的见解。”一些方向上的应用也被看好,例如教育类应用——让 AI 成为讲思路的辅导老师而不仅是给出答案;科研助理,比如辅助数学猜想推导演算、复杂假设建模等需要结构化思考的任务;模型训练与评估,通过 BRAINTEASERS 测试“模型是否只是为了答对而走捷径”;AI 评估标准,目前很多比赛只是看最总得分,而斯坦福提出的方式可以更加精细地区分“答对”和“理解”。 研究人员表示,“这项工作背后反映出的是一种新的 AI 研究模式:不仅要关注模型‘会不会’,更要探究它‘为什么不会’或者‘真的懂了吗?’创造能力、可解释性、推理透明度才是通向可信 AI 的关键路径。” BRAINTEASERS 的构建不仅挑战了传统基准测试在评估 AI 思维能力上的不足,还揭示了现有模型在处理复杂逻辑问题时存在的局限性。这个研究团队的工作对推动 AI 技术的发展具有重要意义。