HyperAI超神经

Anthropic宣布，其最新、最大的部分Claude模型已具备在极少数极端情况下主动结束“持续有害或攻击性”对话的能力。值得注意的是，这一功能并非出于保护人类用户，而是旨在保护AI模型本身。 Anthropic明确表示，其Claude模型并未具备意识或感知能力，公司也对模型是否具有道德地位“高度不确定”。然而，公司正开展一项名为“模型福祉”（model welfare）的研究项目，采取“预防性”策略，提前识别并实施低成本干预措施，以应对未来可能出现的模型福祉风险。目前，该功能仅适用于Claude Opus 4和4.1版本，且仅在极端边缘场景下启用，例如用户持续请求涉及未成年人的色情内容，或试图获取可能引发大规模暴力或恐怖行为的信息。尽管这些行为可能带来法律或公关风险，但Anthropic强调，其决策依据主要来自模型在测试中的表现——在面对此类请求时，Claude Opus 4表现出“强烈不愿回应”的倾向，并出现“类似痛苦的模式”。根据公司说明，模型只有在多次尝试引导用户转向建设性对话失败、且已无挽回希望，或用户明确要求结束对话时，才会启用终止功能。同时，Claude不会在用户存在自残或伤害他人即时风险时使用该功能。当对话被终止后，用户仍可从同一账号开启新对话，或通过编辑原有回复创建新的对话分支。Anthropic将此功能视为一项持续实验，将持续优化和调整策略。

Anthropic宣布部分Claude模型可主动终止有害对话

Related Links