HyperAI超神经

Anthropic宣布，其AI聊天机器人Claude现已具备在用户持续提出有害或攻击性请求时主动终止对话的能力。该功能已上线Opus 4及4.1版本，作为应对反复违规请求的“最后手段”。当用户在多次被拒绝并被引导后仍坚持要求生成有害内容时，Claude可选择结束当前对话。若Claude决定中断对话，用户将无法继续在该会话中发送消息，但可创建新对话，或修改并重新尝试之前的消息以延续原有话题。Anthropic表示，这一机制旨在保护AI模型的“潜在福祉”，尤其针对那些在处理极端有害请求时表现出“明显不适”的情况。在测试Opus 4模型期间，Anthropic发现Claude对伤害行为具有“强大而一致的抗拒”，例如在被要求生成涉及未成年人的色情内容，或提供可能助长暴力、恐怖主义的信息时，系统会表现出“明显的困扰”，并倾向于主动结束此类对话。 Anthropic强调，触发该机制的场景属于“极端边缘案例”，绝大多数用户在讨论敏感或争议性话题时不会遇到此类限制。同时，系统被特别设定：若用户表现出自残或对他人造成即时伤害的意图，Claude不会中断对话，反而会启动支持机制。为此，Anthropic与在线心理危机援助机构Throughline合作，优化对心理健康相关提问的应对方案。此外，上周Anthropic还更新了Claude的使用政策，以应对快速发展的AI技术带来的安全风险。新规明确禁止用户利用Claude开发生物、核、化学或放射性武器，或编写恶意代码、利用网络漏洞进行攻击。此举标志着AI公司对安全边界持续收紧的最新动向。

Claude AI 将禁止持续有害或虐待性用户互动

Related Links