14일 전
SFT의 일반화에 관한 연구: 보상 보정을 통한 강화학습적 관점
Yongliang Wu, Yizhou Zhou, Zhou Ziheng, Yingzhe Peng, Xinyu Ye, Xinting Hu, Wenbo Zhu, Lu Qi, Ming-Hsuan Yang, Xu Yang

초록
우리는 대규모 언어 모델(Large Language Model, LLM)을 위한 감독 미세조정(Supervised Fine-Tuning, SFT)에 대해 간단하면서도 이론적으로 타당한 개선 방안을 제안한다. 이는 강화학습(Reinforcement Learning, RL)에 비해 SFT의 일반화 능력이 제한적이라는 문제를 해결하기 위한 것이다. 수학적 분석을 통해, 기존 SFT의 기울기(gradinet)가 모델의 일반화 능력을 심각하게 제약할 수 있는 문제적 보상 구조를 암묵적으로 포함하고 있음을 밝혔다. 이를 보정하기 위해, 각 토큰에 대해 그 토큰의 등장 확률에 따라 목적 함수를 동적으로 재조정함으로써 기울기 업데이트를 안정화하는 동적 미세조정(Dynamic Fine-Tuning, DFT)을 제안한다. 놀랍게도, 이 단일 라인의 코드 수정만으로도 다양한 도전적인 벤치마크와 기반 모델에서 기존 SFT보다 뛰어난 성능을 보이며, 훨씬 향상된 일반화 능력을 입증한다. 또한, 오프라인 강화학습(offline RL) 환경에서도 경쟁력 있는 성과를 보이며, 효과적이고 간단한 대안을 제시한다. 본 연구는 이론적 통찰과 실용적 해결책을 연결함으로써 SFT의 성능을 크게 향상시켰다. 관련 코드는 https://github.com/yongliang-wu/DFT 에 공개될 예정이다.