Command Palette
Search for a command to run...
ShengYun Peng Eric Smith Ivan Evtimov Song Jiang Pin-Yu Chen Hongyuan Zhan Haozhu Wang Duen Horng Chau Mahesh Pasupuleti Jianfeng Chi

要約
大規模推論モデル(LRM)は、最終的な回答を生成する前に構造化された思考過程(Chain-of-Thought, CoT)を生成することで「思考」を行うが、安全な整合性について批判的に推論する能力に欠けており、誤った前提が思考プロセスに組み込まれると容易にバイアスが生じる。本研究では、反対方向の事前入力(Counter-Aligned Prefilling)を用いた安全性の強化手法である「RECAP(Robust Safety Alignment via Counter-Aligned Prefilling)」を提案する。RECAPは、後期学習(post-training)を対象とした原理的な強化学習(RL)手法であり、誤った推論経路を上書きし、安全かつ有用な回答へ再ルーティングする能力をモデルに明示的に学習させる。RECAPは、合成的に生成された反対方向のCoT事前入力と標準的なプロンプトの混合データ上で学習を行うが、従来のヒューマンフィードバックからの強化学習(RLHF)に加えて追加の学習コストや構造的変更を必要とせず、安全性と脱獄攻撃に対する耐性を顕著に向上させ、過剰な拒否行動を低減しつつ、核心的な推論能力を維持する。さらに、推論時のトークン予算も保持したままである。広範な分析の結果、RECAPで訓練されたモデルはより頻繁に自己反省を実施し、適応型攻撃に対しても堅牢性を保ち、繰り返し推論の上書きを試みる攻撃に対しても安全性を維持することが明らかになった。