Command Palette

Search for a command to run...

1ヶ月前

大きな推論モデルは、不完全な思考からより良い整合性を学習する

ShengYun Peng Eric Smith Ivan Evtimov Song Jiang Pin-Yu Chen Hongyuan Zhan Haozhu Wang Duen Horng Chau Mahesh Pasupuleti Jianfeng Chi

大きな推論モデルは、不完全な思考からより良い整合性を学習する

要約

大規模推論モデル(LRM)は、最終的な回答を生成する前に構造化された思考過程(Chain-of-Thought, CoT)を生成することで「思考」を行うが、安全な整合性について批判的に推論する能力に欠けており、誤った前提が思考プロセスに組み込まれると容易にバイアスが生じる。本研究では、反対方向の事前入力(Counter-Aligned Prefilling)を用いた安全性の強化手法である「RECAP(Robust Safety Alignment via Counter-Aligned Prefilling)」を提案する。RECAPは、後期学習(post-training)を対象とした原理的な強化学習(RL)手法であり、誤った推論経路を上書きし、安全かつ有用な回答へ再ルーティングする能力をモデルに明示的に学習させる。RECAPは、合成的に生成された反対方向のCoT事前入力と標準的なプロンプトの混合データ上で学習を行うが、従来のヒューマンフィードバックからの強化学習(RLHF)に加えて追加の学習コストや構造的変更を必要とせず、安全性と脱獄攻撃に対する耐性を顕著に向上させ、過剰な拒否行動を低減しつつ、核心的な推論能力を維持する。さらに、推論時のトークン予算も保持したままである。広範な分析の結果、RECAPで訓練されたモデルはより頻繁に自己反省を実施し、適応型攻撃に対しても堅牢性を保ち、繰り返し推論の上書きを試みる攻撃に対しても安全性を維持することが明らかになった。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
大きな推論モデルは、不完全な思考からより良い整合性を学習する | 論文 | HyperAI超神経