HyperAI초신경
5일 전

事전 학습된 정책 구분자는 일반 보상 모델입니다.

Shihan Dou, Shichun Liu, Yuming Yang, Yicheng Zou, Yunhua Zhou, Shuhao Xing, Chenhao Huang, Qiming Ge, Demin Song, Haijun Lv, Songyang Gao, Chengqi Lv, Enyu Zhou, Honglin Guo, Zhiheng Xi, Wenwei Zhang, Qipeng Guo, Qi Zhang, Xipeng Qiu, Xuanjing Huang, Tao Gui, Kai Chen
事전 학습된 정책 구분자는 일반 보상 모델입니다.
초록

우리는 보상 모델링을 정책 구분기로 공식화함으로써 새로운 관점을 제시합니다. 이는 두 개의 정책 간 차이를 측정하여 보상 신호를 생성하고, 훈련 정책을 목표 정책으로 안내하여 원하는 행동을 수행하도록 하는 것입니다. 이러한 개념적 통찰력을 바탕으로, 우리는 동일한 정책을 식별하고 다른 정책을 구분할 수 있는 보상 모델(RM)을 학습하는 확장 가능한 사전 학습 방법인 정책 구분 학습(Policy Discriminative Learning, POLAR)을 제안합니다. 전통적인 절대 선호도에 의존하는 보상 모델링 방법과 달리, POLAR은 한 정책과 임의의 목표 정책 간의 상대적인 차이를 포착하며, 일반적인 순위 관계를 모델링하기에 적합한 확장 가능하고 고수준의 최적화 목표입니다.POLAR 사전 학습 패러다임을 활용하여, 1.8B에서 7B까지 매개변수 규모가 다양한 일련의 RM들을 제시합니다. 경험적 결과는 POLAR이 전통적인 비사전 학습 방법보다 크게 우수하며, RM 성능을 크게 향상시키는 것을 보여줍니다. 예를 들어, POLAR-7B은 STEM 작업에서 SOTA 기준 대비 선호도 정확도를 54.8%에서 81.0%로, 창작 글쓰기 작업에서는 57.9%에서 85.5%로 향상시키는 것으로 나타났습니다. 또한 POLAR은 강화 미세 조정(Reinforcement Fine-tuning, RFT)을 사용한 RLHF에서도 견고한 일반화 능력을 보여주며, 신뢰성 있는 보상 신호를 제공하고 정책 성능을 크게 향상시킵니다--20개 벤치마크에서 LLaMa3.1-8B의 평균 성능을 47.36%에서 56.33%, Qwen2.5-32B의 성능을 64.49%에서 70.47%로 개선하였습니다.또한 규모 실험은 계산량과 성능 사이에 명확한 거듭제곱 법칙 관계가 있음을 밝혀냈으며, 이는 선형 상관계수가 0.99에 가까워지는 것으로 지원됩니다. 뛰어난 성능, 강력한 일반화 능력 및 규모 특성을 고려할 때, POLAR은 일반적이면서 강력한 보상 모델 개발에 유망한 방향임을 시사합니다.