HyperAIHyperAI

Command Palette

Search for a command to run...

AI 评测成新的算力瓶颈

人工智能评估成本正急剧攀升,成为制约行业发展的新算力瓶颈。过去评估相对廉价,如今随着智能体(Agent)和科学机器学习基准的普及,评估成本已超越训练成本。例如,Holistic Agent Leaderboard 在一次包含 21,730 次智能体运行的评估中花费约 4 万美元,单次前沿模型运行甚至可达近 3000 美元。在科学机器学习领域,评估一个模型架构需耗费数千个 H100 GPU 小时,成本高达数千美元。 评估成本高企主要源于智能体任务的复杂性和不可压缩性。静态基准测试曾通过抽样将成本降低百倍,但智能体涉及多轮对话、工具调用及环境交互,对配置敏感且结果方差大,压缩空间极小。此外,追求统计可靠性需多次重复运行,进一步将成本放大数倍。高昂的评估费用导致学术界、独立记者及小型实验室难以承担前沿模型的外部验证,评估权力逐渐向资金雄厚的头部机构集中,形成新的“评估鸿沟”。 当前许多排行榜仅报告准确率而忽略成本,误导研究者盲目增加算力投入。为打破僵局,行业急需标准化评估数据的共享机制。目前已有联盟推动建立统一的数据格式,鼓励发布完整的评估日志而非单一得分,以便社区复用数据、减少重复计算。若能将评估数据开源复用,其节省的成本将远超任何单一压缩技术。评估已成为决定谁能定义 AI 能力的关键环节,建立透明、可复用的评估生态迫在眉睫。

相关链接