한 달 전

인간 피드백을 통한 강화 학습을 활용한 유용하고 해로우지 않은 어시스턴트 훈련

Yuntao Bai, Andy Jones, Kamal Ndousse, Amanda Askell, Anna Chen, Nova DasSarma, et al
인간 피드백을 통한 강화 학습을 활용한 유용하고 해로우지 않은 어시스턴트 훈련
초록

우리는 인간 피드백을 통한 강화학습(RLHF)과 선호도 모델링을 활용하여 언어 모델을 유용하고 무해한 보조자로 미세조정한다. 이 정합성 훈련은 거의 모든 자연어처리(NLP) 평가에서 성능을 향상시키며, 파이썬 코드 작성이나 요약과 같은 전문적 기술 훈련과도 완전히 호환됨을 확인하였다. 우리는 선호도 모델과 RL 정책을 주간 단위로 최신 인간 피드백 데이터를 기반으로 반복적으로 업데이트하는 온라인 반복 훈련 방식을 탐색하였으며, 이를 통해 데이터셋과 모델이 효율적으로 개선됨을 확인하였다. 마지막으로, RLHF 훈련의 견고성에 대해 조사하여, 정책의 보상과 정책과 초기화 상태 간의 KL 발산의 제곱근 사이에 대략적인 선형 관계가 존재함을 규명하였다. 본 연구의 주요 결과 외에도, 보정성(calibration)에 대한 부가적 분석, 경쟁적 목표의 영향, OOD(Out-of-Distribution) 탐지 기법의 활용 등을 수행하였으며, 인간 작가와의 모델 비교 및 최근 관련 연구에서 등장한 프롬프트를 활용한 모델 샘플을 제시하였다.