한 달 전

라벨 없이 진화하는 언어 모델: 다수의 지배가 선택을 이끌며, 새로운 요소가 변이를 촉진한다

Yujun Zhou Zhenwen Liang Haolin Liu Wenhao Yu Kishan Panaganti Linfeng Song Dian Yu Xiangliang Zhang Haitao Mi Dong Yu

초록

대규모 언어 모델(LLM)은 점점 더 검증 가능한 보상 기반 강화학습(RLVR)을 통해 훈련되고 있으나, 실세계 적용을 위해서는 레이블이나 외부 평가자 없이도 모델 스스로 개선할 수 있는 능력이 요구된다. 기존의 레이블 없이 작동하는 방법들인 신뢰도 최소화, 자기일관성, 다수결 목표 등은 학습의 안정성을 높이지만, 탐색 범위를 점차 축소시켜 엔트로피 붕괴(entrophy collapse)를 초래한다. 이는 생성 결과가 짧아지고, 다양성이 떨어지며 취약해지는 현상으로 이어진다. 기존의 테스트 시점 강화학습(TTRL)과 같이 현재의 레이블 없는 데이터셋에 모델을 적응시키는 방식과 달리, 본 연구의 목적은 더 포괄적이다. 즉, 모델의 본질적인 탐색 능력과 일반화 능력을 희생하지 않고도 지속적인 개선을 가능하게 하는 것이다. 이를 ‘진화(evolve)’라고 정의한다.이 문제를 체계적으로 정의하고, 레이블 없이도 안정성과 다양성을 동시에 확보할 수 있는 새로운 강화학습 프레임워크인 EVolution-Oriented and Label-free Reinforcement Learning(EVOL-RL)을 제안한다. EVOL-RL은 단순한 규칙으로, 레이블 없는 환경에서 안정성과 다양성의 균형을 유지한다. 이 방법은 다수결 기반의 답변을 안정적인 기준점(선택)으로 유지하면서, 이미 생성된 내용과 의미 공간에서 차이가 나는 추론을 선호하는 새로운 유형의 보상을 도입함으로써 다양성을 촉진한다. GRPO 기반으로 구현된 EVOL-RL은 강한 신호를 보존하기 위해 비대칭 클리핑(asymmetric clipping)을 사용하며, 탐색을 지속시키기 위해 엔트로피 정규화 항을 도입한다.이러한 ‘다수결로 선택 + 새로운 유형으로 다양성 확보’의 설계는 엔트로피 붕괴를 방지하고, 더 길며 정보량이 풍부한 사고 체인을 유지하며, pass@1과 pass@n 모두에서 성능을 향상시킨다. EVOL-RL은 단순히 다수결 기반의 TTRL 베이스라인을 능가할 뿐 아니라, 일관되게 우수한 성능을 보인다. 예를 들어, 레이블 없이 AIME24 데이터셋으로 훈련할 경우, Qwen3-4B-Base 모델의 AIME25에서 pass@1은 TTRL의 4.6%에서 16.4%로, pass@16은 18.5%에서 37.9%로 향상된다. EVOL-RL은 단순히 다양성 붕괴를 막는 데 그치지 않고, 다양한 영역(예: GPQA)에 걸쳐 더 강력한 일반화 능력을 제공한다. 또한, 본 연구는 EVOL-RL이 RLVR 환경에서도 성능 향상을 가져옴을 실험적으로 입증하며, 그 광범위한 적용 가능성을 보여준다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩

즉시 사용 가능한 GPU

최적 가격

시작하기

Hyper Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

Command Palette

라벨 없이 진화하는 언어 모델: 다수의 지배가 선택을 이끌며, 새로운 요소가 변이를 촉진한다

Yujun Zhou Zhenwen Liang Haolin Liu Wenhao Yu Kishan Panaganti Linfeng Song Dian Yu Xiangliang Zhang Haitao Mi Dong Yu

초록

AI로 AI 구축

Hyper Newsletters