Command Palette

Search for a command to run...

한 달 전

엔트로피 안전 추론을 위한 분위수 우위 추정

Junkang Wu Kexin Huang Jiancan Wu An Zhang Xiang Wang Xiangnan He

엔트로피 안전 추론을 위한 분위수 우위 추정

초록

보상의 검증 가능성을 갖춘 강화학습(RLVR)은 대규모 언어모델(LLM)의 추론 능력을 강화하지만, 학습 과정에서 종종 {엔트로피 붕괴}와 {엔트로피 폭발} 사이를 진동하게 된다. 우리는 이러한 두 가지 위험 요소가 보상 독립형 강화학습(예: GRPO 및 DAPO)에서 사용되는 평균 기준선(mean baseline)에 기인함을 규명하였으며, 이는 보상 이상치 상황에서 음의 우위(advantage) 샘플에 부적절한 처벌을 초래함으로써 발생한다. 이를 해결하기 위해 우리는 {분위수 우위 추정}(QAE)을 제안한다. QAE는 평균 기준선을 그룹별 K-분위수 기준선으로 대체함으로써, 응답 수준에서 두 가지 제어 모드를 유도한다. 어려운 질의에서는(확률 p ≤ 1 − K) 드문 성공 사례를 강화하고, 쉬운 질의에서는(확률 p > 1 − K) 잔여 실패 사례를 집중적으로 타깃으로 삼는다. 일차적 소프트맥스 업데이트 하에서, 우리는 {양측 엔트로피 안전성}(two-sided entropy safety)을 입증하였으며, 이는 한 스텝 내 엔트로피 변화에 하한과 상한을 제공함으로써 폭발을 억제하고 붕괴를 방지한다. 실험적으로, 이 최소한의 수정은 엔트로피의 안정화를 가져오며, 신용 할당을 희소화한다(적절한 K 설정 시, 응답의 약 80%가 0의 우위를 갖게 됨). 또한 Qwen3-8B/14B-Base 모델에서 AIME 2024/2025 및 AMC 2023 데이터셋을 대상으로 지속적인 pass@1 성능 향상을 달성한다. 본 연구 결과는 RLVR의 확장성에 있어 {기준선 설계}가 토큰 수준의 휴리스틱보다 더 핵심적인 메커니즘임을 밝혀낸다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp