HyperAI超神经

斯坦福大学人工智能研究团队发现，当前广泛使用的AI评估基准中存在大量隐蔽缺陷，被称为“奇幻漏洞”（fantastic bugs）。这些漏洞可能严重影响AI模型的性能评估，甚至误导整个行业的发展方向。在即将于2025年12月举行的神经信息处理系统会议（NeurIPS 2025）上，斯坦福大学计算机科学助理教授Sanmi Koyejo与博士生Sang Truong发表论文指出，他们对数以千计的AI基准测试进行了系统性分析，发现其中约5%存在严重问题。这些基准被广泛用于衡量语言理解、图像识别、医学推理等AI模型的能力，其得分直接决定模型是否被认可、能否获得资金支持或投入实际应用。 “基准测试本应服务于公共利益，但其重要性日益增长，必须伴随更严格的审查与透明建设。”Koyejo强调。这些“奇幻漏洞”形式多样：包括标签错误、问题表述模糊、文化偏见、逻辑矛盾，甚至格式问题导致正确答案被误判。例如，某题正确答案为“$5”，系统却将“5 dollars”或“$5.00”判定为错误。此类缺陷后果严重：可能让表现较差的模型被误评为优秀，而真正优秀的模型却被低估。在论文中，DeepSeek-R1模型在原始基准下排名倒数第三，修正后跃升至第二。这不仅影响模型研发，更可能导致资源错配，阻碍真正有潜力的技术落地。为高效识别问题，研究团队结合统计学方法与大语言模型，构建了一套“统计+AI”分析框架。该方法能自动识别出异常高发的可疑题目，并优先推送至人工审核，准确率达84%，显著减少人工审查负担。目前，研究团队正与多个基准测试机构合作，推动建立持续维护机制，打破“发布即遗忘”的旧模式。尽管部分机构认可问题存在，但对长期维护仍显犹豫。研究者希望，通过提升基准测试的可靠性，推动AI评估体系整体升级，实现更精准的模型比较、更合理的资源分配，以及更可信的AI系统。随着AI深入医疗、交通、金融等关键领域，这一改进将对技术发展和公共安全产生深远影响。

相关链接

相关链接

相关链接

Command Palette

揭秘AI评估基准中的隐藏“魔法漏洞”

相关链接

Command Palette

揭秘AI评估基准中的隐藏“魔法漏洞”

相关链接

Command Palette

揭秘AI评估基准中的隐藏“魔法漏洞”

相关链接