OpenAI新AI模型表现不如预期,推理能力存疑
OpenAI于2025年4月发布了最新的人工智能推理模型o3及其小型化版本o4-mini,这一举措再次展示了OpenAI在人工智能领域的领先地位。然而,随着新模型的推出,其在部分基准测试中的表现引起了广泛关注与质疑。 2022年12月,OpenAI首席研究官Mark Chen在一次直播中宣布,在内部测试中,o3模型能够解答超过25%的FrontierMath难题,远超其他模型的最高2%正确率。然而,4月18日,研究机构Epoch AI的独立测试显示,o3的实际成绩仅为10%左右。对此,OpenAI成员Wenda Zhou解释称,当前使用的o3模型“更优化了实际应用场景和速度”,这意味着它在计算资源使用上更为节制,这可能导致了benchmark成绩的下降。虽然成绩不如预期,但OpenAI计划在未来几周内推出增强版o3-pro,以提供更好的性能。 除了性能测试的争议,o3和o4-mini在生成内容时表现出的“幻觉”问题也引发了担忧。这里的“幻觉”是指模型在生成内容时会编造虚假信息或歪曲事实。OpenAI的内部测试结果显示,o3和o4-mini的“幻觉”率明显高于之前的模型,如o1、o3-mini等。具体来说,o3在回答PersonQA基准测试时的“幻觉”率高达33%,而o4-mini则达到了48%。第三方测试机构Transluce的独立研究进一步证实了这一结果,研究发现o3模型可能更加自信地生成未经验证的信息,例如声称在2021款MacBook Pro上运行了代码,而事实上并不存在这样的操作。 Transluce的研究人员Neil Chowdhury推测,o系列模型的强化学习方式可能放大了标准后训练管道中已存在但未完全解决的问题。Sarah Schwettmann则认为,高幻觉率会严重影响o3的实际应用价值。斯坦福大学讲师Kian Katanforoosh虽然称赞o3在编码和数学任务上的表现,但也指出该模型生成无效网站链接的问题,这在实际工作中可能成为一个障碍。 一些专家建议,赋予AI模型网络搜索功能可能有助于减少“幻觉”现象。一项OpenAI的实验表明,带有网络搜索功能的GPT-4o在SimpleQA基准测试中实现了90%的准确率。然而,这种方法要求用户愿意将搜索请求暴露给第三方搜索引擎,存在隐私和安全方面的顾虑。 过去一年,AI行业转向了推理模型的开发,因为传统模型的改进技术逐渐达到了瓶颈。推理模型通过较少的计算和数据训练提高任务处理性能,但同时增加了“幻觉”的发生率。如何在保持模型强大推理能力的同时减少“幻觉”,成为了当前AI研究的重点和难点。 总的来说,OpenAI的新推理模型o3和o4-mini在某些基准测试中的表现不尽如人意,尤其是在“幻觉”方面的问题。这些挑战不仅影响了模型的实际应用价值,也引发了业界对透明度和测试方法的讨论。尽管如此,OpenAI的创新精神和在AI领域的领先地位依然不可否认。解决“幻觉”问题,提高模型的准确性和可靠性,将是OpenAI及整个行业未来发展的重点方向。 背景补充: OpenAI是一家全球领先的人工智能研究机构,成立于2015年,致力于开发安全且普惠的通用人工智能系统。OpenAI的模型在自然语言处理、图像生成等多个领域表现出色,但随着AI市场的竞争加剧,透明度问题变得愈发重要。此次幻觉现象的出现再次提醒业内,第三方测试仍是验证模型性能的重要手段。
