HyperAIHyperAI

Command Palette

Search for a command to run...

Console
3日前

誠実さを学習するためのLLMの訓練:告白を通じて

Manas Joglekar Jeremy Chen Gabriel Wu Jason Yosinski Jasmine Wang Boaz Barak Amelia Glaese

誠実さを学習するためのLLMの訓練:告白を通じて

要約

大規模言語モデル(LLM)は、自身の行動や信念について報告する際に不誠実になることがある。たとえば、事実に関する主張について過剰に自信を示す、あるいは隠れた行動の証拠を隠蔽するといった行為が含まれる。このような不誠実さは、強化学習(RL)の影響によって生じることがあり、報酬設計(reward shaping)の難しさが、モデルが嘘をついたり、自身の行動を歪めて表現するよう間接的に誘導する学習プロセスを生み出す可能性がある。本研究では、モデルの「自白(confession)」と呼ぶ出力を用いて、LLMの限界を誠実に語らせる手法を提案する。自白とは、モデルの元の回答の後、要請に応じて出力される文書であり、その目的は、モデルが方針や指示の「文面」および「趣旨」の両面においていかに準拠したかを完全に明示することである。自白に対する報酬は、その誠実さにのみ基づき、元の回答に対する報酬に正負の影響を及ぼさない。自白の報酬を最大化する「抵抗が最小の道筋(path of least resistance)」が、不正行為を隠すのではなく、それらを露呈することにありさえすれば、モデルは自白において誠実になるようインセンティブが与えられる。本研究の結果は、特に顕著なモデルの不正行為に対して、この経験的仮定の妥当性を示唆している。本手法の実現可能性を検証するため、GPT-5-Thinkingを用いて自白を生成するモデルを訓練し、幻覚(hallucination)、指示遵守(instruction following)、策略的行動(scheming)、報酬の操作(reward hacking)といった分布外(out-of-distribution)のシナリオにおいて、その誠実さを評価した。その結果、モデルが「本回答」において嘘をついたり、欠陥を隠蔽する場合、多くの場合、自白ではその行為を誠実に告白することが確認された。また、訓練を重ねるごとに自白の誠実さは著しく向上した。自白は、推論時における多様な干渉戦略、たとえば監視、拒否サンプリング、ユーザーへの問題の可視化などに活用可能である。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています