传递成本:评估语言模型的经济框架
Mehmet Hamza Erol, Batu El, Mirac Suzgun, Mert Yuksekgonul, James Zou
发布日期: 4/23/2025

摘要
人工智能系统在经济中的广泛应用取决于其生成的经济价值是否超过推理成本。评估这种权衡需要考虑性能和成本的指标。我们提出了一种基于生产理论的框架,通过结合准确性和推理成本来评估语言模型。我们引入了“通过成本”(cost-of-pass)的概念,即生成正确解决方案的预期货币成本。然后,我们将“前沿通过成本”定义为在现有模型中可达到的最低通过成本,或者使用聘请专家的大致成本来衡量人类专家的表现。 我们的分析揭示了不同的经济见解。首先,对于基本定量任务而言,轻量级模型是最具成本效益的;对于知识密集型任务而言,则是大型模型;而对于复杂定量问题,则是推理模型最为有效,尽管其每令牌的成本较高。其次,跟踪过去一年的前沿通过成本显示了显著的进步,特别是在复杂定量任务方面,其成本大约每几个月就会减半。第三,为了追踪推动这一进步的关键创新,我们考察了反事实前沿:没有特定模型类别时的成本效益估计。我们发现,在基本定量、知识密集型和复杂定量任务中推动前沿的关键创新分别在于轻量级、大型和推理模型的发展。最后,我们评估了一些常见的推理时技术(如多数投票和自我改进)所带来的成本降低情况,发现这些技术带来的边际准确性提升很少能证明其成本是合理的。 我们的研究结果强调了互补性的模型层面创新是提高成本效益的主要驱动力,并且我们的经济框架提供了一个原则性的工具来衡量这一进步并指导部署。