Skywork-Reward-V2: 인간-인공지능 협력을 통한 선호도 데이터 큐레이션의 확장

인간 피드백을 통한 강화학습(RLHF)에서 보상 모델(RMs)이 차지하는 중요한 역할에도 불구하고, 현재 최신의 오픈 보상 모델들은 대부분의 기존 평가 벤치마크에서 성능이 저조하며, 인간의 미묘하고 복잡한 선호도를 포착하지 못하고 있습니다. 고급 훈련 기법을 통합한 접근 방식들조차도 의미 있는 성능 개선을 가져오지 못했습니다. 우리는 이 취약성이 주로 선호도 데이터셋의 제한성에서 비롯된다고 가정합니다. 이러한 데이터셋은 종종 좁은 범위에 국한되거나 인공적으로 라벨링되었거나, 엄격한 품질 관리가 부족합니다.이러한 도전 과제를 해결하기 위해, 4천만 개의 선호도 쌍으로 구성된 대규모 선호도 데이터셋인 SynPref-40M을 소개합니다. 대규모 데이터 큐레이션을 가능하게 하기 위해, 인간 주석의 품질과 AI의 확장성을 활용하는 두 단계 파이프라인을 설계하였습니다. 이 파이프라인에서는 인간이 검증된 주석을 제공하고, 큰 언어 모델은 인간의 지침에 따라 자동으로 큐레이션을 수행합니다.SynPref-40M에서 2천6백만 개의 선호도 쌍으로 구성된 신중히 큐레이션된 부분 집합을 사용하여 훈련시킨 결과, 0.6B부터 8B 매개변수까지 범위를 가진 8개의 보상 모델로 구성된 Skywork-Reward-V2를 소개합니다. 우리는 Skywork-Reward-V2가 다양한 능력, 즉 인간 선호도와 일치하는 능력, 목적적 정확성, 안전성, 스타일적 편향에 대한 저항성, 그리고 N 중 최고 선택 확장성 등에서 유연성을 보임을 입증하였습니다. 이는 일곱 가지 주요 보상 모델 벤치마크에서 최신 수준의 성능을 달성함을 의미합니다.감소 실험(ablation studies)은 우리의 접근 방식의 효과성이 단순히 데이터 규모뿐만 아니라 높은 품질의 큐레이션에서도 비롯됨을 확인해주었습니다. Skywork-Reward-V2 시리즈는 오픈 보상 모델 분야에서 상당한 진전을 나타내며, 기존 선호도 데이터셋의 잠재력을 드러내고 있으며, 인간-AI 큐레이션 시너지가 어떻게 현저히 더 높은 데이터 품질을 열 수 있는지를 시연하고 있습니다.