Command Palette

Search for a command to run...

2달 전

루온: 검증기를 통한 대규모 장쇄 추론 합성

Xingyue Huang Rishabh Gregor Franke Ziyi Yang Jiamu Bai Weijie Bai Jinhe Bi et al

루온: 검증기를 통한 대규모 장쇄 추론 합성

초록

최근 대규모 언어 모델(LLM)의 발전은, 특히 수학 및 프로그래밍과 같이 정답이 자동으로 검증 가능한 영역에서, 검증 가능한 보상(Verifiable Reward)을 활용한 강화학습(RLVR)을 통해 모델의 추론 능력을 크게 향상시킬 수 있음을 보여주었다. 그러나 높은 품질의 검증 가능한 데이터셋이 부족하고 인간의 감독 비용이 높은 점으로 인해, 이러한 성과를 추론이 집중되는 다른 영역으로 확장하는 것은 여전히 도전 과제이다. 본 연구에서는 다양한 추론 중심 영역에서 확장 가능한 합성 데이터 생성 및 검증을 위한 오픈소스 프레임워크인 ‘Loong 프로젝트’를 소개한다. 이 프레임워크는 두 가지 핵심 구성 요소로 구성된다. 첫째, LoongBench는 12개의 영역(예: 고급 수학, 화학, 논리학 등)에 걸쳐 인간 검증을 거친 총 8,729개의 예제를 포함하는 정제된 시드 데이터셋이며, 각 예제는 실행 가능한 코드와 풍부한 메타데이터를 함께 제공한다. 둘째, LoongEnv는 다양한 프롬프팅 전략을 지원하는 모듈형 합성 데이터 생성 환경으로, 새로운 질문-답변-코드 삼중항을 생성할 수 있다. 이 두 구성 요소는 LLM 기반 에이전트가 코드 실행을 통해 검증된 답과 일치하는 사고 과정(Chain-of-Thought, CoT)을 생성할 때 보상을 받는 강화학습 환경을 형성하는 에이전트-환경 루프를 구성한다. 실험적으로 우리는 LoongBench를 오픈소스 및 사내 개발 LLM을 포함한 다양한 모델 세트에 대해 평가하여 영역 커버리지와 성능 한계를 분석하였다. 또한 LoongEnv를 통해 생성된 합성 데이터에 대해 정확도, 난이도, 다양성 측면에서 포괄적인 분석을 수행하였다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
루온: 검증기를 통한 대규모 장쇄 추론 합성 | 연구 논문 | HyperAI초신경