HyperAI超神经

10 天前

人工智能评估成本正急剧攀升，成为制约行业发展的新算力瓶颈。过去评估相对廉价，如今随着智能体（Agent）和科学机器学习基准的普及，评估成本已超越训练成本。例如，Holistic Agent Leaderboard 在一次包含 21,730 次智能体运行的评估中花费约 4 万美元，单次前沿模型运行甚至可达近 3000 美元。在科学机器学习领域，评估一个模型架构需耗费数千个 H100 GPU 小时，成本高达数千美元。评估成本高企主要源于智能体任务的复杂性和不可压缩性。静态基准测试曾通过抽样将成本降低百倍，但智能体涉及多轮对话、工具调用及环境交互，对配置敏感且结果方差大，压缩空间极小。此外，追求统计可靠性需多次重复运行，进一步将成本放大数倍。高昂的评估费用导致学术界、独立记者及小型实验室难以承担前沿模型的外部验证，评估权力逐渐向资金雄厚的头部机构集中，形成新的“评估鸿沟”。当前许多排行榜仅报告准确率而忽略成本，误导研究者盲目增加算力投入。为打破僵局，行业急需标准化评估数据的共享机制。目前已有联盟推动建立统一的数据格式，鼓励发布完整的评估日志而非单一得分，以便社区复用数据、减少重复计算。若能将评估数据开源复用，其节省的成本将远超任何单一压缩技术。评估已成为决定谁能定义 AI 能力的关键环节，建立透明、可复用的评估生态迫在眉睫。

此资讯由 AI 智能聚合生成，旨在高效传递行业动态，不代表任何观点或建议。

相关链接

相关链接

相关链接

论文周报丨 ProgramBench 让 AI 从零写软件，9 大模型集体翻车；无需额外真实世界数据，ExoActor 展现强场景泛化能力……速览一周 AI 前沿论文

论文周报丨 ProgramBench 让 AI 从零写软件，9 大模型集体翻车；无需额外真实世界数据，ExoActor 展现强场景泛化能力……速览一周 AI 前沿论文

Command Palette

AI 评测成新的算力瓶颈

相关链接

Command Palette

AI 评测成新的算力瓶颈

相关链接

Command Palette

AI 评测成新的算力瓶颈

相关链接

论文周报丨 ProgramBench 让 AI 从零写软件，9 大模型集体翻车；无需额外真实世界数据，ExoActor 展现强场景泛化能力……速览一周 AI 前沿论文

论文周报丨 ProgramBench 让 AI 从零写软件，9 大模型集体翻车；无需额外真实世界数据，ExoActor 展现强场景泛化能力……速览一周 AI 前沿论文