HyperAI
Back to Headlines

BRAINTEASERS: 478 Challenging Logic and Math Problems Test AI Thinking Skills

11 days ago

近日,由美国斯坦福大学的研究团队与合作者共同构建了一个名为BRAINTEASERS的新基准测试,共收录了478道由人类专家精心挑选的逻辑和数学题目。这项研究不仅揭示了模型在“暴力 vs 创造性”解题策略上的表现差异,还展示了真实的智能不仅仅是计算能力的胜利,更是结构化思维的重组。 研究团队在多个主流大模型上进行了系统测试,涵盖了OpenAI的o3、Gemini和DeepSeek R1等知名模型。主要发现包括:模型能够在多种任务中提出创造性的解答方法,但面对难题时,往往偏回归到暴力枚举的策略;提示(hint)真实有效,尤其是在解决高难度问题时,能大幅提高正确率;将自然语言题目改写成数学表达形式只能带来有限的改进,这说明模型对题目的本意理解还不够深入;模型在自我纠错任务中非常容易被误导,有时即使手边握有人类写的正确答案,也会因为“暗 示效应”将其视为错误答案。 研究人员指出,这些现象在评测过程中尤为明显,但在深入探究其推理过程后,却变得清晰起来。“这项工作背后反映了一种新的AI研究范式:不仅要关注模型‘会做什么’,更要探讨‘为何会这样’或‘是否有真正的理解’。”一位研究成员表示,“创造力、解释力和推理透明度,才是通向可信赖AI的关键路径。” 在展示这一基准测试的结果后,研究团队收到了不少正面反馈。有领域专家评论:“你们不仅建立了一个有价值的基准测试,还真正探索了模型的‘内部思 维’。”还有人特别提到:“将‘暴力 vs 创造性’的行为量化出来,这是非常有价值的贡献。” 此外,研究团队还注意到了一些有趣的现象,例如他们进行了一项“虚假自白”实验,结果表明模型显然更容易认同人类提供的正确答案,但在某些情况下,模型可能会因为提示的“长度”而重新排序答案。具体来说,即使是关键提示,一旦表达得非常冗长且花哨,反而会被排到最后。“它可能认为长篇幅的文字是更复杂的内容,因此将其他答案留到了最后处理。”这种行为虽然是一个技术上的缺陷,但显得相当“人性”。 在教育应用方面,这一基准测试显示了将AI发展为能够讲解思路而非仅仅提供答案的重要潜力。例如,可以训练AI辅助老师讲解逻辑数学题目,而不仅仅是为了快速给出解法。这同样适用于科研助力,如帮助数学家进行推测推理、构建复杂的假设模型等需要结构化思考的任务。 对于模型的训练与评估,研究团队提出了用BRAINTEASERS来检测“模型是否只为了解答问题而存在”的建议。当前很多比赛只看重最终得分,而研究团队的方法则能够更细致地区分模型的表现。 综上所述,这个新基准测试的工作为AI的能力和局限性提供了重要的见解。未来的研究将继续聚焦于如何改进模型的内在思考机制,而不仅是提高它们的答题准确率。

Related Links