OpenChat: 혼합 품질 데이터를 통한 오픈소스 언어 모델의 발전

최근 들어 LLaMA와 같은 오픈소스 대규모 언어 모델이 등장하면서, 인간의 목표와 일치하도록 모델을 조정하기 위해 감독적 미세조정(SFT)과 강화학습 기반 미세조정(RLFT) 기법이 도입되고 있다. 그러나 기존의 SFT 방법은 품질이 혼합된 모든 학습 데이터를 동일하게 취급하는 반면, RLFT 방법은 고품질의 쌍별 또는 순위 기반 선호 데이터를 요구한다. 본 연구에서는 품질이 혼합된 데이터를 활용하여 오픈소스 언어 모델을 더욱 발전시키기 위한 새로운 프레임워크인 OpenChat을 제안한다. 구체적으로, 선호 레이블이 없는 일반적인 SFT 학습 데이터(소수의 전문가 데이터와 다수의 비최적 데이터가 혼합된 형태)를 고려한다. 우리는 C(onditioned)-RLFT라는 새로운 방법을 제안하며, 이는 서로 다른 데이터 소스를 거시적인 보상 레이블로 간주하고, 클래스 조건부 정책을 학습함으로써 데이터 품질 정보의 보완적 특성을 활용한다. 흥미롭게도, C-RLFT에서 최적의 정책은 단일 단계의 강화학습 없이 감독학습을 통해 간단히 해결할 수 있으며, 이는 비용이 큰 인간 선호 레이블링을 피하면서도 경량화된 학습을 가능하게 한다. 세 가지 표준 벤치마크에서 실시한 광범위한 실험을 통해, C-RLFT로 미세조정된 openchat-13b는 모든 13B 규모의 오픈소스 언어 모델 중 평균 성능이 가장 높음을 확인하였다. 또한 AGIEval을 활용하여 모델의 일반화 성능을 검증한 결과, 기준 모델을 초과한 유일한 모델은 openchat-13b였다. 마지막으로, OpenChat의 효과성과 내구성을 이해하기 위해 일련의 분석을 수행하였다. 본 연구의 코드, 데이터 및 모델은 https://github.com/imoneoi/openchat 및 https://huggingface.co/openchat에서 공개되어 있다.