Command Palette

Search for a command to run...

12일 전

로ングRL: 긴 컨텍스트에 대한 고급 추론을 위한 강화 학습

Siyuan Wang Gaokai Zhang Li Lyna Zhang Ning Shang Fan Yang Dongyao Chen Mao Yang

로ングRL: 긴 컨텍스트에 대한 고급 추론을 위한 강화 학습

초록

장기적 맥락에 대한 추론은 대규모 언어 모델의 핵심 요소이다. 체인-오프-사고(Chain-of-Thought) 방식에서 "아하!" 순간을 유도함으로써 강화학습(RL)은 단기적 맥락 추론을 향상시킬 수 있으나, 장기적 맥락 추론에 요구되는 고도의 사고 패턴은 여전히 탐색이 부족한 영역이며, 고난이도의 RL 데이터도 희소한 실정이다. 본 논문에서는 고도의 장기적 맥락 추론을 위한 데이터 기반 강화학습 기법인 LoongRL을 제안한다. LoongRL의 핵심은 KeyChain으로, UUID 체인을 대량의 혼란을 유발하는 문서들 속에 삽입함으로써 단기적 다단계 질의응답(QA) 문제를 고난이도의 장기적 맥락 문제로 변환하는 합성 기법이다. 이러한 문제를 해결하기 위해서는 모델이 정확한 체인을 단계별로 추적하고, 진정한 질문을 식별하며, 관련 사실을 검색하고 이를 기반으로 정확한 추론을 수행해야 한다. KeyChain 데이터를 기반으로 한 RL 훈련은 훈련 길이를 훨씬 초월하는 일반화 능력을 보이는 ‘계획-검색-추론-검증’의 잠재적 사고 패턴을 유도한다. 16K 길이로 훈련된 모델은 128K 길이의 과제를 전면적인 RL 롤아웃 비용 없이 효과적으로 해결할 수 있다. Qwen2.5-7B 및 14B 모델에서 LoongRL은 장기적 맥락 다단계 QA 정확도를 각각 23.5%, 21.1% 절대적으로 향상시켰다. 최종적으로 생성된 LoongRL-14B는 74.2의 점수를 기록하여, o3-mini(74.5) 및 DeepSeek-R1(74.9)과 같은 훨씬 더 큰 최전선 모델과 견줄 만한 성능을 달성했다. 또한 장기적 맥락 검색 성능도 향상시켰으며, 128K 규모의 '바늘을 풀에 넣기' 스트레스 테스트를 전부 통과했고, 단기적 맥락 추론 능력도 유지하고 있다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
로ングRL: 긴 컨텍스트에 대한 고급 추론을 위한 강화 학습 | 연구 논문 | HyperAI초신경