14日前

SFTの一般化について：報酬補正を用いた強化学習的視点

Yongliang Wu, Yizhou Zhou, Zhou Ziheng, Yingzhe Peng, Xinyu Ye, Xinting Hu, Wenbo Zhu, Lu Qi, Ming-Hsuan Yang, Xu Yang

要約

大規模言語モデル（LLM）における教師あり微調整（SFT）の性能を、理論的に裏付けられたシンプルな改善手法により向上させます。本手法は、強化学習（RL）に比べてSFTの汎化性能に限界がある問題に着目しています。数学的解析を通じて、従来のSFTの勾配が、モデルの汎化能力を著しく制限する問題を含む不適切な報酬構造を暗黙的に表現していることを明らかにしました。この問題を解消するため、本研究では動的微調整（DFT）を提案します。DFTは、各トークンの確率に基づいて目的関数を動的にスケーリングすることで、各トークンに対する勾配更新を安定化させます。驚くべきことに、この1行のコード変更により、複数の困難なベンチマークおよび異なるベースモデルにおいて、従来のSFTを大幅に上回る性能を達成し、汎化能力が著しく向上することが示されました。さらに、本手法はオフライン強化学習（offline RL）の設定でも競争力のある結果を示しており、効果的かつシンプルな代替手段を提供します。本研究は理論的洞察と実用的解決策を橋渡しし、SFTの性能を著しく向上させるものです。コードは https://github.com/yongliang-wu/DFT にて公開予定です。