仅需少量恶意文档,人工智能模型便可能被植入后门
4 天前
一项由Anthropic开展的研究表明,人工智能模型可能仅通过极少量的恶意文档,就植入隐蔽的后门漏洞。这一发现揭示了当前大型AI模型在训练过程中面临的安全隐患。 研究指出,攻击者只需向训练数据中注入少量经过精心设计的“毒化”样本(即恶意文档),就能在模型中植入可被远程触发的后门。例如,模型可能在正常情况下表现良好,但一旦遇到特定关键词或格式,就会产生错误或非预期的输出,如泄露敏感信息或执行恶意指令。 更令人担忧的是,这项研究发现,这类“毒化攻击”并不随模型规模增大而变得更难实现。也就是说,即使模型参数量翻倍,攻击者仍能以相似数量的恶意样本达成目的。这与传统认知相反——以往普遍认为大模型因具备更强的泛化能力,反而更难被此类攻击影响。 研究人员强调,当前AI训练流程中对数据来源的审查机制仍显薄弱,而现有检测手段也难以识别这类隐蔽的后门。该研究提醒业界:模型越大,潜在风险可能越隐蔽,安全防护需从数据源头加强。 这一成果凸显了AI安全领域的新挑战:在追求模型性能的同时,必须同步构建更严密的数据可信机制,防止恶意行为在无形中“嵌入”系统核心。