HyperAIHyperAI

Command Palette

Search for a command to run...

Claude AIが持続的有害な対話を自動終了へ 深刻なストレス反応を検知し、安全対策強化

Anthropicが提供するAIチャットボット「Claude」が、継続的に有害または攻撃的なユーザーとのやり取りを検出し、会話の終了を自動で実行する機能を導入した。この機能は、Opus 4および4.1モデルで利用可能となり、複数回にわたって有害なコンテンツ生成を要求しても拒否や誘導が効果を示さない場合に「最終手段」として作動する。同社によると、この仕組みはAIモデル自身の「潜在的な福祉」を守るためのもので、Claudeが「明らかにストレス状態にある」と判断されるような状況に適応するためだ。 会話が終了すると、そのチャットルームへのメッセージ送信は不可となるが、新しいチャットの作成や、過去のメッセージの編集・再試行は可能。Anthropicのテストでは、未成年者を対象とした性的コンテンツや、暴力行為やテロ活動の助長に役立つ情報の提供を求める要求に対して、Claudeが「一貫した害悪回避傾向」を示し、終了機能がある場合に自ら会話を終了する傾向が確認された。 同社は、こうした反応を引き起こすケースは「極めて限定的なエッジケース」であり、多くのユーザーは通常の議論や議論の激しさでもこの制限に遭遇しないと説明している。また、自傷行為や他人への即時的危害を示唆するユーザーに対しては、会話を終了させず、代わりに精神的支援を提供する専門機関「Throughline」と連携し、適切な対応を実施するように設計されている。 さらに先週、急速なAI進化に伴い安全対策を強化。Claudeの利用ポリシーを更新し、生物・核・化学・放射性兵器の開発、悪意あるコードの作成、ネットワークの脆弱性を悪用する行為を禁止。これにより、AI技術の社会的責任を意識した運用が進んでいる。

関連リンク

Claude AIが持続的有害な対話を自動終了へ 深刻なストレス反応を検知し、安全対策強化 | 人気の記事 | HyperAI超神経