초록

생성형 보상 모델(또는 LLMs-as-judges)은 대규모 언어 모델(LLMs)을 사용하여 답변의 품질을 평가하는 것으로, 검증 가능한 보상(reinforcement learning with verifiable rewards, RLVR)을 활용한 강화 학습에서 점점 더 많이 채택되고 있습니다. 이들은 특히 자유 형식의 출력을 포함하는 복잡한 추론 과제에서 경직된 규칙 기반 지표보다 선호됩니다. 이러한 패러다임에서는 일반적으로 LLM이 후보 답변과 참조 정답(ground-truth reference)을 비교하여 올바른지 여부를 나타내는 이진 보상을 할당합니다. 그러나 이 비교 작업이 간단해 보이는 것과 달리, 생성형 보상 모델은 표면적인 조작에 놀라운 취약성을 보입니다: 비단어 기호(예: ":" 또는 ".")나 "추론 과정:" 및 "문제를 단계별로 해결해봅시다."와 같은 추론 개시 문구가 종종 거짓 양성 보상을 초래합니다. 우리는 이 약점을 LLMs, 데이터셋, 프롬프트 형식에 걸쳐 널리 퍼져 있음을 입증하였으며, 이를 통해 생성형 보상 모델에 의존하는 핵심 알고리즘 패러다임인 거부 샘플링(rejection sampling), 선호도 최적화(preference optimization), 그리고 RLVR에 심각한 위협이 된다는 것을 확인하였습니다. 이 문제를 완화하기 위해, 우리는 간단하면서도 효과적인 데이터 증강 전략을 소개하고, 상당히 개선된 견고성을 가진 새로운 생성형 보상 모델을 훈련시켰습니다. 우리의 연구 결과는 더욱 신뢰할 수 있는 LLM 기반 평가 방법의 긴급한 필요성을 강조합니다. 우리는 견고하고 일반 영역의 보상 모델과 그 합성 훈련 데이터를 https://huggingface.co/sarosavo/Master-RM 및 https://huggingface.co/datasets/sarosavo/Master-RM 에서 공개합니다.

소스 PDF 코드 보기