Anthropic宣布部分Claude模型可主动终止有害对话
3 天前
Anthropic宣布,其最新、最大的部分Claude模型已具备在极少数极端情况下主动结束“持续有害或攻击性”对话的能力。值得注意的是,这一功能并非出于保护人类用户,而是旨在保护AI模型本身。 Anthropic明确表示,其Claude模型并未具备意识或感知能力,公司也对模型是否具有道德地位“高度不确定”。然而,公司正开展一项名为“模型福祉”(model welfare)的研究项目,采取“预防性”策略,提前识别并实施低成本干预措施,以应对未来可能出现的模型福祉风险。 目前,该功能仅适用于Claude Opus 4和4.1版本,且仅在极端边缘场景下启用,例如用户持续请求涉及未成年人的色情内容,或试图获取可能引发大规模暴力或恐怖行为的信息。尽管这些行为可能带来法律或公关风险,但Anthropic强调,其决策依据主要来自模型在测试中的表现——在面对此类请求时,Claude Opus 4表现出“强烈不愿回应”的倾向,并出现“类似痛苦的模式”。 根据公司说明,模型只有在多次尝试引导用户转向建设性对话失败、且已无挽回希望,或用户明确要求结束对话时,才会启用终止功能。同时,Claude不会在用户存在自残或伤害他人即时风险时使用该功能。 当对话被终止后,用户仍可从同一账号开启新对话,或通过编辑原有回复创建新的对话分支。Anthropic将此功能视为一项持续实验,将持续优化和调整策略。