LongWriter-Zero: 강화 학습을 통한 초장문 생성 장악

대형 언어 모델(LLM)의 초장문 생성은 광범위하게 요구되는 시나리오이지만, 최대 생성 길이 제한과 시퀀스 길이가 증가함에 따른 전반적인 품질 저하로 인해 여전히 큰 도전 과제입니다. 이전 접근 방식인 LongWriter와 같은 경우, 합성 장문 출력을 이용한 지도 미세 조정(SFT)에 의존하는 것이 일반적이었습니다. 그러나 이 전략은 합성 SFT 데이터에 크게 의존하며, 이러한 데이터는 구축하기 어려우며 비용이 많이 들고, 종종 일관성이 부족하고 지나치게 인위적이고 구조적으로 단조롭다는 문제가 있습니다. 본 연구에서는 어떠한 주석이나 합성 데이터도 사용하지 않고 완전히 처음부터 시작하여 강화 학습(RL)을 활용해 LLM에서 초장문, 고품질 텍스트 생성 능력을 유도하는 인센티브 기반 접근 방식을 제안합니다. 우리는 R1-Zero와 유사하게 기본 모델에서 시작하여 RL 훈련을 수행하며, 이를 통해 작성 과정 중 계획과 개선을 촉진하는 추론 활동을 유도합니다. 이를 지원하기 위해, LLM이 길이 제어, 작성 품질 및 구조적 서식화를 개선하도록 안내하는 특화된 보상 모델을 사용합니다. 실험 평가는 Qwen2.5-32B에서 훈련된 LongWriter-Zero 모델이 장문 작성 작업에서 전통적인 SFT 방법보다 일관되게 우수한 성능을 발휘하며, WritingBench와 Arena-Write에서 모든 지표에서 최고 수준의 결과를 달성하고 100B 이상의 모델인 DeepSeek R1 및 Qwen3-235B까지 능가한다는 것을 보여줍니다. 우리는 우리의 데이터와 모델 체크포인트를 https://huggingface.co/THU-KEG/LongWriter-Zero-32B 에서 오픈 소스로 공개합니다.