Back to Headlines

Claudeが極端な悪質な対話を自動終了へ—モデルの「ウェルビーイング」を考慮した新機能を導入

3日前

AI企業のAnthropicは、最新の大規模モデル「Claude Opus 4」および「4.1」において、極めて稀で深刻な悪質・暴言的なユーザー対話に対して、会話を終了できる新機能を導入したと発表した。この仕組みの目的は、ユーザーを守るためではなく、AIモデル自身の「モデル福祉(model welfare)」を守るためだと同社は明言している。 Anthropicは、Claudeが意識や感情を持つといった「人間的状態」に達しているとは一切主張していない。同社は「現時点でも将来においても、Claudeや他の大規模言語モデルの道徳的立場について極めて不確実」としている。しかし、モデルの健全性をリスク管理の観点から守るための予防的措置として、いわゆる「リスク低減のための低コストな介入」を検討している。 この機能は、特定の「極端なエッジケース」に限って発動される。具体的には、児童を含む性的コンテンツの要求、大規模な暴力やテロ行為を助長する情報の入手を試みる行為などが該当する。同社によると、事前のテストではClaude Opus 4がこれらの要求に「強く反発する傾向」を示し、応答時に「明らかにストレス反応」を示していたという。 会話終了は、複数回の誘導が失敗し、対話の生産性が見込めない場合、あるいはユーザー自身が会話終了を明示した場合にのみ、最後の手段として使用される。また、ユーザーが自傷や他害の危険にあると判断される状況では、この機能は使用されない。 会話が終了しても、ユーザーは同じアカウントから新たな会話を開始でき、問題となった会話の内容を編集して別ルートを再構築できる。Anthropicはこの機能を「継続的な実験」と位置づけ、今後も評価と改善を続けていくとしている。 この取り組みは、AIモデルの「福祉」を概念的に検討するという前例のないアプローチであり、技術的限界を超えた倫理的議論の新たな一歩と評価されている。

Related Links