강화 미세 조정
강화 미세 조정(RFT)은 지도 미세 조정(SFT)과 강화 학습(RL)을 결합한 방법입니다. 이 알고리즘은 여러 추론 경로에 대한 학습을 도입하고 이러한 경로와 정답 간의 일치 정도를 자동으로 평가하여 고품질 답변을 생성하는 모델의 능력을 최적화하는 것을 목표로 합니다.
RFT는 2024년에 ByteDance에 의해 처음 제안되었습니다.ReFT: 강화된 미세 조정을 통한 추론"는 ACL 2024에 게재되었습니다. 이 기술은 두 단계를 거쳐 모델 성능을 개선합니다. 첫 번째는 워밍업 단계로, SFT를 사용하여 모델을 워밍업하고 모델이 수학 문제에 대해 기본적으로 올바른 응답을 생성할 수 있는 기반을 제공합니다. 두 번째는 강화 학습(RL) 단계로, 온라인 강화 학습(특히 PPO 알고리즘)을 사용하여 최적화를 수행하고, 대량의 추론 경로를 자동으로 샘플링하고 실제 답변에 기반한 보상을 얻어 모델을 더욱 미세 조정합니다.
RFT는 특히 CodeLLAMA 모델에서 여러 데이터 세트에 대해 SFT보다 더 나은 성능을 보여줍니다. GSM8K 데이터 세트에 대한 RFT의 정확도는 SFT보다 약 10퍼센트 포인트 더 높습니다. 이 기술을 사용하면 모델은 답을 학습할 수 있을 뿐만 아니라 작업 요구 사항에 따라 사고 경로를 최적화하고, 모델에 대한 "피드백 루프"를 구축하고, 도메인별 채점자가 모델 출력을 채점하여 특정 시나리오 요구 사항에 맞게 조정된 솔루션을 학습할 수 있습니다.