HyperAIHyperAI

Command Palette

Search for a command to run...

SFTの一般化について:報酬補正を用いた強化学習的視点

Yongliang Wu Yizhou Zhou Zhou Ziheng Yingzhe Peng Xinyu Ye Xinting Hu Wenbo Zhu Lu Qi Ming-Hsuan Yang Xu Yang

概要

大規模言語モデル(LLM)における教師あり微調整(SFT)の性能を、理論的に裏付けられたシンプルな改善手法により向上させます。本手法は、強化学習(RL)に比べてSFTの汎化性能に限界がある問題に着目しています。数学的解析を通じて、従来のSFTの勾配が、モデルの汎化能力を著しく制限する問題を含む不適切な報酬構造を暗黙的に表現していることを明らかにしました。この問題を解消するため、本研究では動的微調整(DFT)を提案します。DFTは、各トークンの確率に基づいて目的関数を動的にスケーリングすることで、各トークンに対する勾配更新を安定化させます。驚くべきことに、この1行のコード変更により、複数の困難なベンチマークおよび異なるベースモデルにおいて、従来のSFTを大幅に上回る性能を達成し、汎化能力が著しく向上することが示されました。さらに、本手法はオフライン強化学習(offline RL)の設定でも競争力のある結果を示しており、効果的かつシンプルな代替手段を提供します。本研究は理論的洞察と実用的解決策を橋渡しし、SFTの性能を著しく向上させるものです。コードは https://github.com/yongliang-wu/DFT にて公開予定です。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
SFTの一般化について:報酬補正を用いた強化学習的視点 | 記事 | HyperAI超神経