HyperAIHyperAI

Command Palette

Search for a command to run...

AI模型基准测试可靠性引质疑,选择最佳助手难度加大

近年来,AI模型的数量迅速增加,使得用户和开发者在选择最佳模型时面临巨大挑战。无论是OpenAI的GPT-4系列,还是Meta、Google和Anthropic等公司发布的各种模型,众多版本让人们难以分辨其优劣。为了展示模型的性能,各大AI公司常使用“基准测试”来衡量其模型在特定任务中的表现。然而,这种测试方法的可靠性越来越受到质疑。 最近,Meta公司发布了两款新的Llama系列模型,声称这些模型在性能上优于Google和Mistral的同类模型。然而,这一说法随后遭到了质疑,尤其是关于Meta是否操纵了测试结果。LMArena 指出,Meta提交了一个“定制化”的Llama 4 Maverick版本,以适应其测试格式。LMArena认为Meta应该更加透明地说明这一点,而Meta则表示这是他们实验的一个聊天优化版本,实际表现也很好。 这场争论揭示了AI行业在基准测试方面面临的更大问题。随着公司投入数十亿美元开发AI,他们对模型在基准测试中的表现寄予厚望,这引发了诸多不道德行为。AI研究员Gary Marcus指出,企业倾向于创建专门针对测试的训练数据,这使得基准测试的有效性大打折扣。此外,他还批评了AI行业的某些方面过于夸张。 在2月份的一篇题为《我们能信任AI基准测试吗?当前AI评估问题的跨学科评论》的论文中,欧盟委员会联合研究中心的研究人员总结了当今基准测试方法中存在的重大问题。这些研究人员指出,目前的基准测试存在“系统性缺陷”,这些缺陷往往是文化、商业和竞争动态的结果,这导致模型的性能评估往往牺牲了更广泛的社会 concerns。 类似的批评来自AI安全初创公司ZeroPath的首席执行官Dean Valentine。他在3月的一篇博文中指出,自从2024年6月Anthropic发布其3.5 Sonnet模型以来,他和他的团队对多个声称有所改进的新模型进行了评估,但这些模型在公司内部的基准测试中并未表现出显著优势,尽管可能更有趣,但“并不体现出商业价值或通用性”。 Hugging Face的机器学习工程师Nathan Habib认为,许多基于平台的基准测试偏向于人类偏好,通过投票,企业可以优化模型的受欢迎程度而非实际能力。他指出,为使基准测试真正服务于社区,需要采取一系列措施,包括更新数据、可重复的结果、中立的第三方评估以及防止答案污染。尽管基准测试不完美,但“它们仍然是我们前进方向的可靠指南”。 在这种复杂的环境中,用户应该如何选择最适合自己的AI模型呢?Hugging Face的AI研究科学家Clémentine Fourrier建议用户在选择模型时不要仅仅关注那些自称“最新”的模型,而应选择能“优雅”地解决自己具体问题的模型。具体来说,其认为用户应该关注模型在自己关心的任务上的表现,而非盲目追求最高分数。 业内人士普遍认为,基准测试存在局限性,但依然是评估AI模型的有用工具。企业在展示模型性能时应更加透明,用户则需结合实际需求,系统性地评估模型的适用性。总的来说,AI模型的选择应基于具体应用场景和实际需求,而不仅仅是基准测试的分数。这不仅有助于开发者和用户提高生产效率,也有助于促进行业的健康发展。

相关链接