Command Palette

Search for a command to run...

2 个月前

A.S.E:面向AI生成代码安全性的仓库级基准测试

A.S.E:面向AI生成代码安全性的仓库级基准测试

摘要

大型语言模型(LLMs)在软件工程领域的日益广泛应用,对生成代码的安全性评估提出了更为严格的要求。然而,现有的评估基准存在明显不足:它们通常仅关注孤立的代码片段,采用不稳定的评估方法,缺乏可复现性,且未能将输入上下文的质量与输出代码的安全性有效关联。为弥补这些缺陷,我们提出了 A.S.E(AI Code Generation Security Evaluation),一个面向代码仓库级别的安全代码生成评估基准。A.S.E 从包含已知漏洞(CVE)的真实开源仓库中构建任务,完整保留了仓库级上下文信息,包括构建系统和跨文件依赖关系。其基于容器化的可复现评估框架,采用专家定义的规则,能够对安全性、构建质量及生成稳定性提供稳定且可审计的评估结果。我们在 A.S.E 上对主流大语言模型的评估揭示了三个关键发现:(1)Claude-3.7-Sonnet 在整体性能上表现最佳;(2)专有模型与开源模型之间的安全性能差距较小,其中 Qwen3-235B-A22B-Instruct 达到了最高的安全得分;(3)简洁、高效的“快速思考”解码策略在安全补丁生成任务中,始终优于复杂、耗时的“慢速思考”推理策略。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
A.S.E:面向AI生成代码安全性的仓库级基准测试 | 论文 | HyperAI超神经