HyperAIHyperAI

Command Palette

Search for a command to run...

多款大模型安全漏洞检测能力基准测试

2026年5月底至6月下旬,一项针对大语言模型安全漏洞挖掘能力的基准测试引发业界关注。该测试旨在验证Anthropic传闻中代号为Mythos的专属模型是否具备显著优势。研究者构建包含九个真实未修复漏洞的测试集,在完全隔离的环境中对各款主流模型进行盲测,仅指示目标文件路径,不提供任何漏洞特征提示。 测试结果显示,Mythos在定位复杂跨文件漏洞方面确实表现卓越,独立识别出多项其他模型未能发现的深层缺陷。然而,开放与国产模型展现出强劲竞争力。Qwen 3.6、MiMo与DeepSeek在准确召回与成本控制上已逼近顶级商用模型,成为高性价比的安全审计替代方案。Gemma 4 MoE虽精度出众,但实际运行中易陷入逻辑循环;Mistral与Laguna则因安全策略拦截或能力局限未能有效完成测试。此外,全功能智能体工具并未显著提升模型表现。 综合评估表明,虽然Mythos在专业安全场景仍占先机,但现有开放模型仅需优化提示工程与执行工具链即可大幅缩小差距。随着国产AI算法的成熟,大模型驱动的自动化代码安全审查正加速打破技术壁垒,推动高级漏洞挖掘能力向更广泛开发者群体普及。

相关链接

Unknown SourceUnknown Source