HyperAI초신경

SwS: 자기 인식 기반 약점 주도 문제 합성 강화 학습을 통한 LLM 추론

Liang, Xiao ; Li, Zhong-Zhi ; Gong, Yeyun ; Wang, Yang ; Zhang, Hengyuan ; Shen, Yelong ; Wu, Ying Nian ; Chen, Weizhu
발행일: 6/16/2025
SwS: 자기 인식 기반 약점 주도 문제 합성 강화 학습을 통한 LLM 추론
초록

강화학습에서 검증 가능한 보상(Reinforcement Learning with Verifiable Rewards, RLVR)은 수학 문제 해결과 같은 복잡한 추론 과제를 수행하기 위한 대형 언어 모델(Large Language Models, LLMs)의 훈련에 효과적임이 입증되었습니다. RLVR의 확장성을 위한 필수 조건은 정확하고 검증 가능한 답을 포함하는 고품질 문제 집합입니다. 그러나 기존의 증류 지향 합성 데이터셋에는 잘 설계된 인간이 라벨링한 수학 문제와 제한적인 검증이 가능한 답이 부족하여, 이는 RL에서의 효율성을 제한합니다. 또한 대부분의 문제 생성 전략은 모델의 능력을 고려하지 않고 무차별적으로 문제 집합을 확장하므로, 유용한 질문을 생성하는 효율성이 낮아집니다.이러한 문제를 완화하기 위해, 우리는 모델의 결함을 체계적으로 식별하고 이를 활용하여 문제를 확장하는 자기 인식적 약점 주도 문제 생성 프레임워크(Self-aware Weakness-driven problem Synthesis, SwS)를 소개합니다. 구체적으로, 약점을 RL 훈련 중 반복 샘플링 과정에서 모델이 일관되게 배우지 못하는 질문으로 정의합니다. 그런 다음 이러한 실패 사례에서 핵심 개념을 추출하여 새로운 문제를 생성하여 후속 증강 훈련에서 모델의 약점을 강화합니다. 이로써 모델은 자신의 약점을 집중적으로 극복하면서 점진적으로 개선할 수 있습니다.외부 지식 증류에 의존하지 않고, 우리의 프레임워크는 모델이 RL에서 자신의 약점을 자동으로 식별하고 해결할 수 있도록 함으로써 강력한 일반화 능력을 제공합니다. 이 방법으로 7B 및 32B 모델은 여덟 가지 주요 추론 벤치마크에서 평균 성능 향상률 10.0%와 7.7%를 달성하였습니다.