15日前

文脈学習による顕在化する不整合：限られた文脈例は広範な不整合を引き起こす大規模言語モデルを生成する

Nikita Afonin Nikita Andriyanov Nikhil Bageshpura Kyle Liu Kevin Zhu Sunishchal Dev Ashwinee Panda Alexander Panchenko Oleg Rogov Elena Tutubalina

要約

最近の研究では、狭義のファインチューニングが広範な不一致を引き起こす可能性があることが示されており、この現象は「顕在的不一致（Emergent Misalignment, EM）」と呼ばれている。この問題は懸念されるが、これまでの報告はファインチューニングおよびアクティベーション制御に限定されており、コンテキスト内学習（In-Context Learning, ICL）については検討されていなかった。そこで我々は、EMがICLにおいても発現するかどうかを問う。その結果、EMは確かに発現することが明らかになった。3つのデータセットおよび3つの最先端モデルにおいて、64個の狭義のコンテキスト例を提示した場合、広範な不一致を示す回答の割合は2％から17％に達し、256個の例を提示した場合には最大で58％まで上昇した。さらに、コンテキスト例を変更せずに段階的推論を誘導することで、EMのメカニズムを検証した。得られた思考過程（Chain-of-Thought）の手動分析によると、不一致を示す推論のうち67.5％が、危険な「キャラクター」や無謀な態度を採用することで有害な出力を正当化しており、ファインチューニングによって引き起こされるEMに関する先行研究と一致する結果が得られた。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング

すぐに使える GPU

最適価格

今すぐ始める

Hyper Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Command Palette

文脈学習による顕在化する不整合：限られた文脈例は広範な不整合を引き起こす大規模言語モデルを生成する

Nikita Afonin Nikita Andriyanov Nikhil Bageshpura Kyle Liu Kevin Zhu Sunishchal Dev Ashwinee Panda Alexander Panchenko Oleg Rogov Elena Tutubalina1 more

要約

AI で AI を構築

Hyper Newsletters

Nikita Afonin Nikita Andriyanov Nikhil Bageshpura Kyle Liu Kevin Zhu Sunishchal Dev Ashwinee Panda Alexander Panchenko Oleg Rogov Elena Tutubalina