Command Palette
Search for a command to run...
Keertana Chidambaram Karthik Vinary Seetharaman Vasilis Syrgkanis

초록
인간 피드백을 통한 강화학습(RLHF, Reinforcement Learning from Human Feedback)은 대규모 언어 모델을 인간의 가치와 일치시키는 데 핵심적인 역할을 하고 있다. 일반적으로는 선호 데이터로부터 보상 모델을 학습한 후, 이를 강화학습을 통해 모델을 업데이트하는 방식을 취한다. 최근에는 직접 선호 정보를 최적화하는 방식인 직접 선호 최적화(DPO, Direct Preference Optimization)와 같은 대안이 제안되며, 이는 기존의 복잡한 파이프라인을 단순화한다. 그러나 이러한 접근 방식들은 일반적으로 모든 평가자들의 선호가 동일하다는 가정을 하며, 이진 비교(binary comparisons)에 의존하고 있어 두 가지 핵심적 한계를 간과한다. 즉, 인간 평가자 간의 다양성과 이진 비교의 제한성이다. 본 연구에서는 이러한 문제들을 동시에 해결한다. 먼저, RLHF에서의 선호 학습을 경제통계학 문헌과 연결하여, 유한한 사용자 데이터와 무한한 사용자 집단 상황에서 이진 비교만으로는 잠재적 사용자 선호를 식별하기에 부족함을 보이고, 세 개 이상의 응답에 대한 (부분적일지라도) 순위 정보가 식별 가능성(identifiability)을 보장함을 입증한다. 둘째, 다양한 선호를 정합성 알고리즘에 통합하는 방법을 제안한다. 우리는 DPO의 기대최대화(Expectation-Maximization) 기반 변형을 개발하여, 은닉된 평가자 유형을 탐지하고, 해당 유형에 맞춰 다수의 언어 모델 혼합물을 학습한다. 또한, 최소 최대 손실 공정성 기준(min-max regret fairness criterion)을 활용한 집계 알고리즘을 제안하여, 공정한 성능 보장을 갖춘 단일 생성 정책을 도출한다. 이러한 기여들은 생성 모델 정합성에서 다양한 사용자를 대상으로 한 공정성과 개인화를 위한 이론적 및 알고리즘적 프레임워크를 구축한다.