AI编程工具或未如预期般提升开发效率,实际测试显示反增19%完成时间
近年来,AI 编程工具如 Cursor 和 GitHub Copilot 的问世极大地改变了软件工程师的工作流程。这些工具通过自动编写代码、修复错误和测试更改,承诺大幅提升开发者的生产力。这些成果的背后是来自 OpenAI、Google DeepMind、Anthropic 和 xAI 等公司的高性能 AI 模型,它们在软件工程测试中表现出显著的进步。 然而,一项由非营利性 AI 研究团体 METR(Machine Engineering Team Research)周四发布的最新研究却对这一说法提出了质疑,特别是在有经验的开发者身上,这些工具的实际效果如何尚未明确。 为了验证 AI 编程工具对生产力的影响,METR 开展了一次随机对照试验,邀请了 16 名有经验的开源开发者参与。这些开发者需要在他们经常贡献的大型代码库中完成 246 项真实任务。约一半的任务被指定为“允许使用 AI”,开发者可以使用 Cursor Pro 等最先进的 AI 编程工具;另一半任务则禁止使用 AI 工具。 在开始任务之前,开发者们预测使用 AI 编程工具可以减少 24% 的完成时间。但结果出乎意料:当允许使用 AI 工具时,开发者的完成时间反而增加了 19%,即使用 AI 后他们的速度变得更慢了。 值得注意的是,只有 56% 的参与者在这之前使用过 Cursor。尽管几乎所有的开发者都曾使用过基于网页的 AI 语言模型,但这是部分人首次尝试 Cursor。研究团队在实验前对参与者进行了培训,帮助他们熟悉这一工具。 尽管如此,METR 的研究结果仍然引起了对 AI 编程工具普适增效效果的怀疑。具体来说,开发者在使用 AI 工具时花费了更多的时间来提示 AI 并等待其响应,而不是实际编码。此外,AI 在处理大型和复杂的代码库时表现不佳,这恰恰是此次实验中使用的环境。 研究人员谨慎地表示,这些发现并不意味着当前的 AI 系统无法加速大多数开发者的日常工作。其他大规模的研究表明,AI 编程工具确实能提高软件工程师的工作效率。作者还提到,近年来 AI 技术取得了显著进展,因此未来几个月内可能会看到不同的结果。 然而,这项研究还是提供了另一个理由,让人对 AI 编程工具承诺的增效抱持怀疑态度。此前的研究也显示,目前的 AI 编程工具可能引入错误,甚至在某些情况下导致安全漏洞。 业内人士认为,虽然 METR 的研究结果可能让部分开发者对 AI 编程工具的效果产生质疑,但这一领域的潜力依然巨大。随着技术的不断进步和工具的优化,AI 编程工具有望在未来发挥更大的作用。目前,这类工具主要用于减轻简单的编程任务负担,但在处理复杂任务时仍需改进。此外,GitHub 等公司已经在市场上占据了重要地位,持续推动 AI 编程工具的发展。