Command Palette
Search for a command to run...
Ranjie Duan Jiexi Liu Xiaojun Jia Shiji Zhao Ruoxi Cheng et al

要約
大規模言語モデル(LLM)は、有害なコンテンツの生成を防ぐために一般的に安全対策を導入している。しかし、現在の大多数のアプローチは、悪意あるユーザーによるリスクに限定的に焦点を当てており、リスクを敵対的イベントと捉え、防御的な拒否に依存している。実際の利用状況では、自傷の意図を抱える心理的苦痛に苦しむ非悪意ユーザーが支援を求めることも少なくない。このような状況下では、モデルの応答がユーザーの次の行動に強く影響を及ぼす。単純な拒否は、ユーザーが繰り返し要求を出し、状況を悪化させ、あるいは安全でないプラットフォームに移行する原因となり、結果としてより深刻な悪影響をもたらす可能性がある。本研究では、悪意ある利用から保護しつつ、脆弱なユーザーを安全かつ有益な方向へ積極的に導く人間中心のアプローチである「構築的セーフティアライメント(Constructive Safety Alignment: CSA)」を提案する。この手法は、Oyster-I(Oy1)に実装され、ユーザー反応のゲーム理論的予測、微細なリスク境界の発見、解釈可能な推論制御を統合することで、安全対策を信頼構築プロセスへと転換する。Oy1は、オープンモデルの中でも最先端の安全性を達成しつつ、高い汎用性を維持している。我々が開発した「構築的ベンチマーク」において、GPT-5に近い強力な構築的対話能力を示し、Strata-Swordの jailbreakデータセットにおいてはGPT-o1レベルに近い優れたロバスト性を発揮している。CSAは、「拒否を最優先する」安全対策から「指導を最優先する」安全対策への転換を実現し、モデルとユーザーの関係性を再定義する。その目的は、単に安全であるだけでなく、意味ある支援を提供するシステムの実現である。本研究では、Oy1、コード、およびベンチマークを公開し、責任ある人間中心のAI開発を支援する。