HyperAI超神经

1 天前

2026年5月底至6月下旬，一项针对大语言模型安全漏洞挖掘能力的基准测试引发业界关注。该测试旨在验证Anthropic传闻中代号为Mythos的专属模型是否具备显著优势。研究者构建包含九个真实未修复漏洞的测试集，在完全隔离的环境中对各款主流模型进行盲测，仅指示目标文件路径，不提供任何漏洞特征提示。测试结果显示，Mythos在定位复杂跨文件漏洞方面确实表现卓越，独立识别出多项其他模型未能发现的深层缺陷。然而，开放与国产模型展现出强劲竞争力。Qwen 3.6、MiMo与DeepSeek在准确召回与成本控制上已逼近顶级商用模型，成为高性价比的安全审计替代方案。Gemma 4 MoE虽精度出众，但实际运行中易陷入逻辑循环；Mistral与Laguna则因安全策略拦截或能力局限未能有效完成测试。此外，全功能智能体工具并未显著提升模型表现。综合评估表明，虽然Mythos在专业安全场景仍占先机，但现有开放模型仅需优化提示工程与执行工具链即可大幅缩小差距。随着国产AI算法的成熟，大模型驱动的自动化代码安全审查正加速打破技术壁垒，推动高级漏洞挖掘能力向更广泛开发者群体普及。

此资讯由 AI 智能聚合生成，旨在高效传递行业动态，不代表任何观点或建议。

相关链接

相关链接

相关链接

材料 AI 迈向「可解释时代」，日本团队破解高维光谱黑箱，锁定新材料发现关键特征

材料 AI 迈向「可解释时代」，日本团队破解高维光谱黑箱，锁定新材料发现关键特征

Command Palette

多款大模型安全漏洞检测能力基准测试

相关链接

Command Palette

多款大模型安全漏洞检测能力基准测试

相关链接

Command Palette

多款大模型安全漏洞检测能力基准测试

相关链接

材料 AI 迈向「可解释时代」，日本团队破解高维光谱黑箱，锁定新材料发现关键特征

材料 AI 迈向「可解释时代」，日本团队破解高维光谱黑箱，锁定新材料发现关键特征