ScarfBench:面向企业级Java框架迁移的AI代理评测基准
近日,IBM研究院正式发布开源基准测试平台ScarfBench,旨在全面评估人工智能智能体在企业级Java框架迁移任务中的实际效能。企业应用现代化是软件工程中最耗资的环节之一,传统AI基准多聚焦代码生成与缺陷修复,而框架迁移则需同时处理依赖关系、构建系统重构及运行时行为保持,技术门槛极高。ScarfBench选取Spring、Jakarta EE与Quarkus三大主流生态,涵盖34款企业应用与200余项迁移任务,严格以成功编译、正确部署及行为一致作为核心评估指标。 测试结果显示,尽管当前领先AI智能体在代码生成层面表现优异,但在复杂迁移场景中行为保持成功率仍不足百分之十。智能体往往过度自信于自身的完成判断,实际编译通过率虽高,但在部署与测试环节故障率显著攀升。研究进一步指出,框架迁移并非简单的线性代码转换,而是涉及配置适配、依赖解析与环境调优的迭代过程。配置管理与基础设施差异构成了主要挑战,单纯依赖代码翻译无法保障迁移质量。 ScarfBench通过标准化评估体系,精准揭示了AI辅助应用现代化的能力边界与工程痛点。该基准已开放数据集、测试空间及排行榜,为学术界与产业界提供了客观衡量智能体架构演进与现代化解决方案成熟度的关键标尺,有望加速下一代自主软件工程工具的落地。
