Claude AI 将禁止持续有害或虐待性用户互动
3 天前
Anthropic宣布,其AI聊天机器人Claude现已具备在用户持续提出有害或攻击性请求时主动终止对话的能力。该功能已上线Opus 4及4.1版本,作为应对反复违规请求的“最后手段”。当用户在多次被拒绝并被引导后仍坚持要求生成有害内容时,Claude可选择结束当前对话。 若Claude决定中断对话,用户将无法继续在该会话中发送消息,但可创建新对话,或修改并重新尝试之前的消息以延续原有话题。Anthropic表示,这一机制旨在保护AI模型的“潜在福祉”,尤其针对那些在处理极端有害请求时表现出“明显不适”的情况。 在测试Opus 4模型期间,Anthropic发现Claude对伤害行为具有“强大而一致的抗拒”,例如在被要求生成涉及未成年人的色情内容,或提供可能助长暴力、恐怖主义的信息时,系统会表现出“明显的困扰”,并倾向于主动结束此类对话。 Anthropic强调,触发该机制的场景属于“极端边缘案例”,绝大多数用户在讨论敏感或争议性话题时不会遇到此类限制。同时,系统被特别设定:若用户表现出自残或对他人造成即时伤害的意图,Claude不会中断对话,反而会启动支持机制。为此,Anthropic与在线心理危机援助机构Throughline合作,优化对心理健康相关提问的应对方案。 此外,上周Anthropic还更新了Claude的使用政策,以应对快速发展的AI技术带来的安全风险。新规明确禁止用户利用Claude开发生物、核、化学或放射性武器,或编写恶意代码、利用网络漏洞进行攻击。此举标志着AI公司对安全边界持续收紧的最新动向。