HyperAI超神经

近年来，AI 编程工具如 Cursor 和 GitHub Copilot 的问世极大地改变了软件工程师的工作流程。这些工具通过自动编写代码、修复错误和测试更改，承诺大幅提升开发者的生产力。这些成果的背后是来自 OpenAI、Google DeepMind、Anthropic 和 xAI 等公司的高性能 AI 模型，它们在软件工程测试中表现出显著的进步。然而，一项由非营利性 AI 研究团体 METR（Machine Engineering Team Research）周四发布的最新研究却对这一说法提出了质疑，特别是在有经验的开发者身上，这些工具的实际效果如何尚未明确。为了验证 AI 编程工具对生产力的影响，METR 开展了一次随机对照试验，邀请了 16 名有经验的开源开发者参与。这些开发者需要在他们经常贡献的大型代码库中完成 246 项真实任务。约一半的任务被指定为“允许使用 AI”，开发者可以使用 Cursor Pro 等最先进的 AI 编程工具；另一半任务则禁止使用 AI 工具。在开始任务之前，开发者们预测使用 AI 编程工具可以减少 24% 的完成时间。但结果出乎意料：当允许使用 AI 工具时，开发者的完成时间反而增加了 19%，即使用 AI 后他们的速度变得更慢了。值得注意的是，只有 56% 的参与者在这之前使用过 Cursor。尽管几乎所有的开发者都曾使用过基于网页的 AI 语言模型，但这是部分人首次尝试 Cursor。研究团队在实验前对参与者进行了培训，帮助他们熟悉这一工具。尽管如此，METR 的研究结果仍然引起了对 AI 编程工具普适增效效果的怀疑。具体来说，开发者在使用 AI 工具时花费了更多的时间来提示 AI 并等待其响应，而不是实际编码。此外，AI 在处理大型和复杂的代码库时表现不佳，这恰恰是此次实验中使用的环境。研究人员谨慎地表示，这些发现并不意味着当前的 AI 系统无法加速大多数开发者的日常工作。其他大规模的研究表明，AI 编程工具确实能提高软件工程师的工作效率。作者还提到，近年来 AI 技术取得了显著进展，因此未来几个月内可能会看到不同的结果。然而，这项研究还是提供了另一个理由，让人对 AI 编程工具承诺的增效抱持怀疑态度。此前的研究也显示，目前的 AI 编程工具可能引入错误，甚至在某些情况下导致安全漏洞。业内人士认为，虽然 METR 的研究结果可能让部分开发者对 AI 编程工具的效果产生质疑，但这一领域的潜力依然巨大。随着技术的不断进步和工具的优化，AI 编程工具有望在未来发挥更大的作用。目前，这类工具主要用于减轻简单的编程任务负担，但在处理复杂任务时仍需改进。此外，GitHub 等公司已经在市场上占据了重要地位，持续推动 AI 编程工具的发展。

AI编程工具或未如预期般提升开发效率，实际测试显示反增19%完成时间

Related Links