2달 전
제피르: LM 정렬의 직접 증류
Tunstall, Lewis ; Beeching, Edward ; Lambert, Nathan ; Rajani, Nazneen ; Rasul, Kashif ; Belkada, Younes ; Huang, Shengyi ; von Werra, Leandro ; Fourrier, Clémentine ; Habib, Nathan ; Sarrazin, Nathan ; Sanseviero, Omar ; Rush, Alexander M. ; Wolf, Thomas

초록
우리는 사용자 의도에 맞춰 더 작은 언어 모델을 개발하는 것을 목표로 하고 있습니다. 이전 연구에서는 큰 모델에 정제된 지도 미세 조정(distilled Supervised Fine-Tuning, dSFT)을 적용하면 작업 정확도가 크게 향상됨을 보여주었습니다. 그러나 이러한 모델들은 미스얼라이먼트(unaligned) 상태로, 자연스러운 프롬프트에 대해 잘 반응하지 않는다는 문제점이 있습니다. 이를 해결하기 위해 AI 피드백(AI Feedback, AIF)에서 얻은 선호 데이터(preference data)의 활용을 실험하였습니다. 교사 모델이 순위를 매긴 출력 데이터셋에서 시작하여, 정제된 직접 선호 최적화(distilled Direct Preference Optimization, dDPO)를 적용하여 의도 맞춤 성능이 크게 향상된 채팅 모델을 학습하였습니다. 이 접근법은 미세 조정 과정에서 추가적인 샘플링 없이 몇 시간의 훈련만으로 가능합니다. 최종 결과인 Zephyr-7B는 7억 파라미터 모델의 채팅 벤치마크에서 최고 수준(state-of-the-art)을 달성하였으며, 인간 주석이 필요하지 않습니다. 특히 MT-Bench 결과에서는 Zephyr-7B가 가장 우수한 오픈 액세스 RLHF 기반 모델인 Llama2-Chat-70B를 능가함을 확인할 수 있었습니다. 시스템의 코드, 모델, 데이터 및 튜토리얼은 https://github.com/huggingface/alignment-handbook에서 제공됩니다.