Command Palette
Search for a command to run...
Xingyue Huang Rishabh Gregor Franke Ziyi Yang Jiamu Bai Weijie Bai Jinhe Bi et al

초록
최근 대규모 언어 모델(LLM)의 발전은, 특히 수학 및 프로그래밍과 같이 정답이 자동으로 검증 가능한 영역에서, 검증 가능한 보상(Verifiable Reward)을 활용한 강화학습(RLVR)을 통해 모델의 추론 능력을 크게 향상시킬 수 있음을 보여주었다. 그러나 높은 품질의 검증 가능한 데이터셋이 부족하고 인간의 감독 비용이 높은 점으로 인해, 이러한 성과를 추론이 집중되는 다른 영역으로 확장하는 것은 여전히 도전 과제이다. 본 연구에서는 다양한 추론 중심 영역에서 확장 가능한 합성 데이터 생성 및 검증을 위한 오픈소스 프레임워크인 ‘Loong 프로젝트’를 소개한다. 이 프레임워크는 두 가지 핵심 구성 요소로 구성된다. 첫째, LoongBench는 12개의 영역(예: 고급 수학, 화학, 논리학 등)에 걸쳐 인간 검증을 거친 총 8,729개의 예제를 포함하는 정제된 시드 데이터셋이며, 각 예제는 실행 가능한 코드와 풍부한 메타데이터를 함께 제공한다. 둘째, LoongEnv는 다양한 프롬프팅 전략을 지원하는 모듈형 합성 데이터 생성 환경으로, 새로운 질문-답변-코드 삼중항을 생성할 수 있다. 이 두 구성 요소는 LLM 기반 에이전트가 코드 실행을 통해 검증된 답과 일치하는 사고 과정(Chain-of-Thought, CoT)을 생성할 때 보상을 받는 강화학습 환경을 형성하는 에이전트-환경 루프를 구성한다. 실험적으로 우리는 LoongBench를 오픈소스 및 사내 개발 LLM을 포함한 다양한 모델 세트에 대해 평가하여 영역 커버리지와 성능 한계를 분석하였다. 또한 LoongEnv를 통해 생성된 합성 데이터에 대해 정확도, 난이도, 다양성 측면에서 포괄적인 분석을 수행하였다.