HyperAI초신경
2일 전

MaPPO: 사전 지식을 활용한 사후 최대 우도 선호 최적화

Guangchen Lan, Sipeng Zhang, Tianle Wang, Yuwei Zhang, Daoan Zhang, Xinpeng Wei, Xiaoman Pan, Hongming Zhang, Dong-Jun Han, Christopher G. Brinton
초록

사용자 대신 대규모 언어 모델(LLM) 시대가 본격화되면서, 선호도 최적화(Preference Optimization, PO) 방법은 LLM을 인간의 선호에 맞추고 성능을 향상시키는 핵심 접근법으로 부상하고 있다. 본 연구에서는 선호도 학습을 위한 프레임워크인 최대사후선호도 최적화(Maximum a Posteriori Preference Optimization, MaPPO)를 제안한다. MaPPO는 최적화 목적함수에 사전 보상 지식을 명시적으로 통합함으로써, 선호도 학습을 보다 정교하게 수행한다. 기존의 직접 선호도 최적화(Direct Preference Optimization, DPO) 및 그 변종들은 선호도 학습을 최대우도추정(Maximum Likelihood Estimation, MLE) 문제로 간주하지만, MaPPO는 사전 보상 추정을 원리적인 최대사후추정(Maximum a Posteriori, MaP) 목적함수에 통합함으로써 이 기존 패러다임을 확장한다. 이는 DPO 및 그 변종을 일반화할 뿐만 아니라, 응답에 대한 과도하게 단순화된 이진 분류 문제를 완화함으로써 더 나은 일치도를 달성한다. 특히 중요한 점은 MaPPO가 추가적인 하이퍼파라미터를 도입하지 않으며, 오프라인 및 온라인 설정 모두에서 선호도 최적화를 지원한다는 점이다. 또한 MaPPO는 DPO 변종(예: 널리 사용되는 SimPO, IPO, CPO 등)과 함께 플러그인 형태로 사용 가능하며, 일관된 성능 향상을 제공한다. MT-Bench, AlpacaEval 2.0, Arena-Hard 등 세 가지 표준 벤치마크에서 다양한 모델 크기와 모델 시리즈에 대해 실시한 광범위한 실험 평가 결과, 계산 효율성을 희생하지 않고도 일관된 선호도 일치도 향상이 확인되었다.