18일 전
의미 인식 보상이 적용된 자유형 생성에서의 개방형 R1 훈련
Zongxia Li, Yapei Chang, Yuhang Zhou, Xiyang Wu, Zichao Liang, Yoo Yeon Sung, Jordan Lee Boyd-Graber

초록
개방형 장문 생성의 평가가 어려운 이유는 좋은 출력과 나쁜 출력을 명확히 구분하는 기준을 정의하기 어렵기 때문입니다. 기존 방법들은 일관성, 스타일, 관련성 등의 핵심 측면을 놓치거나 사전 학습 데이터에 편향되어 있어, 개방형 장문 평가는 아직 충분히 탐구되지 않은 문제입니다. 이러한 간극을 메우기 위해, 우리는 PrefBERT를 제안합니다. PrefBERT는 GRPO에서 개방형 장문 생성을 평가하고 좋은 출력과 나쁜 출력에 대해 다른 보상을 제공하여 그 학습을 안내하는 점수 모델입니다. 다양한 장문 스타일과 Likert 척도로 평가된 품질을 포함하는 두 개의 응답 평가 데이터셋으로 학습된 PrefBERT는 전통적인 ROUGE-L 및 BERTScore 지표보다 더 우수한 의미적 보상 피드백을 제공하여 GRPO를 효과적으로 지원합니다. LLM-as-a-judge, 인간 평가, 질적 분석 등을 포함한 포괄적인 평가를 통해 우리는 PrefBERT가 다중 문장 및 단락 길이의 응답으로 학습되었음에도 불구하고 다양한 장문에서 신뢰성을 유지하며 GRPO가 필요한 검증 가능한 보상과 잘 일치함을 보여줍니다. 인간 평가는 PrefBERT를 보상 신호로 사용하여 정책 모델을 학습하면 전통적인 지표로 학습된 것보다 인간 선호도와 더 잘 일치하는 응답이 생성됨을 확인하였습니다. 우리의 코드는 https://github.com/zli12321/long_form_rl에서 이용할 수 있습니다.