HyperAIHyperAI

Command Palette

Search for a command to run...

한 개의 토큰으로 LLM-판사 속이기

Yulai Zhao Haolin Liu Dian Yu S. Y. Kung Haitao Mi Dong Yu

초록

생성형 보상 모델(또는 LLMs-as-judges)은 대규모 언어 모델(LLMs)을 사용하여 답변의 품질을 평가하는 것으로, 검증 가능한 보상(reinforcement learning with verifiable rewards, RLVR)을 활용한 강화 학습에서 점점 더 많이 채택되고 있습니다. 이들은 특히 자유 형식의 출력을 포함하는 복잡한 추론 과제에서 경직된 규칙 기반 지표보다 선호됩니다. 이러한 패러다임에서는 일반적으로 LLM이 후보 답변과 참조 정답(ground-truth reference)을 비교하여 올바른지 여부를 나타내는 이진 보상을 할당합니다. 그러나 이 비교 작업이 간단해 보이는 것과 달리, 생성형 보상 모델은 표면적인 조작에 놀라운 취약성을 보입니다: 비단어 기호(예: ":" 또는 ".")나 "추론 과정:" 및 "문제를 단계별로 해결해봅시다."와 같은 추론 개시 문구가 종종 거짓 양성 보상을 초래합니다. 우리는 이 약점을 LLMs, 데이터셋, 프롬프트 형식에 걸쳐 널리 퍼져 있음을 입증하였으며, 이를 통해 생성형 보상 모델에 의존하는 핵심 알고리즘 패러다임인 거부 샘플링(rejection sampling), 선호도 최적화(preference optimization), 그리고 RLVR에 심각한 위협이 된다는 것을 확인하였습니다. 이 문제를 완화하기 위해, 우리는 간단하면서도 효과적인 데이터 증강 전략을 소개하고, 상당히 개선된 견고성을 가진 새로운 생성형 보상 모델을 훈련시켰습니다. 우리의 연구 결과는 더욱 신뢰할 수 있는 LLM 기반 평가 방법의 긴급한 필요성을 강조합니다. 우리는 견고하고 일반 영역의 보상 모델과 그 합성 훈련 데이터를 https://huggingface.co/sarosavo/Master-RMhttps://huggingface.co/datasets/sarosavo/Master-RM 에서 공개합니다.


AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩
바로 사용 가능한 GPU
최적의 가격

HyperAI Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
한 개의 토큰으로 LLM-판사 속이기 | 문서 | HyperAI초신경