3일 전

DuPO: 이중 선호 최적화를 통한 신뢰할 수 있는 LLM 자기 검증 가능화

Shuaijie She, Yu Bao, Yu Lu, Lu Xu, Tao Li, Wenhao Zhu, Shujian Huang, Shanbo Cheng, Lu Lu, Yuxuan Wang
DuPO: 이중 선호 최적화를 통한 신뢰할 수 있는 LLM 자기 검증 가능화
초록

우리는 일반화된 이중성(duality)을 통해 레이블이 필요 없는 피드백을 생성하는 이중 학습 기반 선호도 최적화 프레임워크인 DuPO를 제안한다. DuPO는 두 가지 주요한 한계를 해결한다. 첫째, 검증 가능한 보상(Verifiable Rewards)을 활용하는 강화학습(RLVR)의 경우, 높은 비용이 드는 레이블에 의존하고, 검증 가능한 작업에만 적용 가능한 점이다. 둘째, 기존의 이중 학습은 엄격한 이중 작업 쌍(예: 번역과 역번역)에 한정된다는 점이다. 구체적으로, DuPO는 원시 작업(primal task)의 입력을 알려진 부분과 알려지지 않은 부분으로 분해한 후, 원시 작업의 출력과 알려진 정보(예: 수학적 해를 역으로 진행하여 숨겨진 변수를 복원하는 방식)를 활용해 알려지지 않은 부분을 재구성하는 이중 작업(dual task)을 구성한다. 이를 통해 비가역적인 작업(non-invertible tasks)에도 적용 가능성을 넓혔다. 이 재구성의 품질은 원시 작업을 최적화하기 위한 자기지도 보상(self-supervised reward)으로 활용되며, 단일 모델을 통해 두 작업 모두를 구현할 수 있는 대규모 언어 모델(LLM)의 능력과 시너지를 발휘한다. 실험적으로 DuPO는 다양한 작업에서 두드러진 성능 향상을 보였다. 756개 방향의 번역 작업에서 평균적으로 COMET 점수를 2.13점 향상시켰으며, 세 가지 도전적인 수학 추론 벤치마크에서 평균적으로 정확도를 6.4점 향상시켰다. 또한 추론 시점 리랭킹 기법으로 활용할 경우, 성능을 평균 9.3점 향상시켰다(계산량을 희생하여 정확도를 높이는 방식). 이러한 결과는 DuPO가 확장 가능하고 일반적이며, 레이블이 필요 없는 대규모 언어 모델 최적화를 위한 새로운 패러다임임을 입증한다.