HyperAI초신경

직접 선호도 최적화

직접 선호도 최적화(DPO)는 대규모 언어 모델(LLM)을 인간의 선호도에 맞춰 조정하는 미세 조정 전략입니다. 2023년 스탠포드 대학과 CZ Biohub 연구팀이 제안하여 논문에 게재했습니다.직접 선호도 최적화: 언어 모델은 비밀리에 보상 모델입니다》, NeurIPS 2023에 게재됨.

DPO의 핵심 아이디어는 별도의 보상 모델을 훈련하거나 강화 학습을 사용하지 않고 인간의 선호도 데이터를 직접 최적화하는 것입니다. 이진 선호도 데이터를 사용하여 언어 모델을 미세 조정하여 모델이 인간이 선호하는 답변을 생성할 가능성을 높입니다. 인간의 피드백을 통한 기존 강화 학습(RLHF)과 비교했을 때, DPO는 더 간단하고, 안정적이며, 계산 비용이 저렴합니다. 이 방법은 선호도 손실을 정책에 직접 통합하여 보상 모델의 적합 과정을 피하는 동시에, KL 발산 제약 조건을 사용하여 학습 중인 모델이 원래 모델에서 벗어나지 않도록 보장합니다.

DPO는 높은 계산 비용, 복잡한 보상 모델링, 훈련 중 불안정성 등 RLHF의 몇 가지 한계를 해결하기 위해 제안되었습니다. 실험 결과, DPO는 생성된 감정을 제어하는 데 있어 PPO 기반 RLHF보다 성능이 뛰어나고 요약 및 단일 턴 대화 응답 품질 면에서 DPO와 비슷하거나 더 나은 것으로 나타났습니다. 또한 DPO는 서로 다른 선호도 강도를 지닌 선호도 쌍을 처리하기 위해 오프셋 값을 도입하여 모델의 성능을 더욱 향상시킵니다.