HyperAIHyperAI

Command Palette

Search for a command to run...

논문 모음 | 대규모 강화 학습의 최신 발전: 마이크로소프트, 구글, 스탠포드, 런민대학교, 샤오홍슈 등에서 학점 배분, 복잡한 추론, 에이전트 강화 학습 분야의 주요 성과 발표

Featured Image

강화 학습의 현재 발전 상황을 살펴보면, 긴 연쇄 추론에서 신용 할당 능력을 향상시키는 것, 복잡한 환경에서 모델의 자율적 탐색 능력을 강화하는 것, 장기 계획 및 피드백 학습 기능을 갖춘 지능형 에이전트 시스템을 구축하는 것 등 모든 핵심 목표는 동일한 방향을 향하고 있습니다.보상이 부족하고 정적 감독이 요구되는 한계를 극복하며,이를 통해 모델은 상호작용을 통해 지속적으로 학습하고 발전할 수 있습니다.

강화 학습은 본질적으로 지능형 에이전트가 "인지-결정-실행-피드백"의 폐쇄 루프를 통해 행동 전략을 지속적으로 최적화할 수 있도록 하는 방법입니다. 고정된 데이터 분포에 의존하는 기존의 지도 학습과 달리, 강화 학습은 모델이 환경과의 상호작용 속에서 시행착오를 통해 학습하는 능력을 강조하며, 이를 통해 동적인 작업에서 장기적인 이점을 극대화하는 의사결정 메커니즘을 점진적으로 구축할 수 있도록 합니다.요컨대, 강화 학습은 인공지능을 "질문에 답할 수 있는 능력"에서 "자율적으로 행동할 수 있는 능력"으로 이끌고 있으며, "수동적 생성"에서 "능동적 지능"으로의 중요한 도약을 완성하고 있습니다.

이번 주에는HyperAI는 대규모 모델 강화 학습 분야의 최신 연구 논문 6편을 엄선하여 여러분께 소개합니다.이 프로젝트에는 스탠포드 대학교, 중국 인민대학교와 같은 세계 최고 대학들과 마이크로소프트, 구글, 콰이쇼우, 샤오홍슈와 같은 거대 기술 기업들이 참여했습니다. 관련 논문들은 강력한 추론 및 자기 학습 기능을 갖춘 차세대 대규모 모델 구축을 위한 매우 고무적인 새로운 솔루션을 제공합니다. 함께 배워봅시다! ⬇️

또한, 더 많은 사용자들이 학계의 인공지능 분야 최신 동향을 이해할 수 있도록 하기 위해,HyperAI 공식 웹사이트에 "최신 논문" 섹션이 추가되어 사용자들이 최첨단 AI 연구 동향을 파악할 수 있게 되었습니다.

최신 AI 논문:https://go.hyper.ai/hzChC

이번 주 논문 추천

1 에코

논문 제목:

ECHO: 터미널 에이전트는 무료로 세계 모델을 학습합니다

터미널 에이전트의 상호작용은 막대한 양의 환경 피드백을 생성하지만, 기존의 강화 학습 방식은 행동 레이블 업데이트에 희소한 보상만을 사용하여 관측 데이터를 심각하게 낭비합니다. 본 연구에서는 행동 손실을 유지하면서 환경 피드백 레이블에 대한 교차 엔트로피 예측 손실을 추가로 계산하는 ECHO 방법을 제안합니다. 이 메커니즘은 순방향 전파 오버헤드를 증가시키지 않으므로, 정책이 훈련 중에 터미널의 지시에 대한 반응을 동기적으로 예측할 수 있게 되어, 사실상 월드 모델을 추가 비용 없이 학습할 수 있습니다.

실험 결과에 따르면 이 방법은 단말 제어 벤치마크에서 초기 응답 정확도를 두 배로 높이고, 이전에 보지 못한 단말 동역학을 예측하는 능력을 크게 향상시키며, 전문가 시연에 대한 의존도를 크게 줄이고, 외부 검증 없이도 자체 진화를 달성할 수 있습니다.

논문 및 상세 해석:https://go.hyper.ai/qma4O

ECHO 메커니즘: 터미널 피드백을 에이전트 강화 학습을 위한 감독 신호로 변환합니다.

2 델타

논문 제목:

DelTA: 검증 가능한 보상을 이용한 강화 학습을 위한 차별적 토큰 크레딧 할당

검증 가능한 보상 기반 강화 학습은 종종 지나치게 세밀한 보상 배분이라는 문제에 직면합니다. 정기적인 업데이트는 조판과 같은 고빈도 공유 패턴에 쉽게 압도되어 실제로 높은 보상을 생성하는 핵심 추론 마커를 효과적으로 식별하지 못합니다. 이러한 문제를 해결하기 위해 본 연구에서는 고유 계수를 계산하여 자체 정규화된 목적 함수의 가중치를 재조정하는 DelTA를 제안합니다. 이 메커니즘은 긍정적 및 부정적 보상 측면에 고유한 마커의 기울기 방향을 정확하게 증폭하고, 공유되지만 변별력이 약한 방향을 강력하게 억제하며, 기울기 업데이트의 대비를 크게 향상시킵니다. 수학적 추론 및 코드 생성 평가에서 본 방법은 동일 규모의 최고 기준선들을 종합적으로 능가하며, 다양한 아키텍처에서 뛰어난 일반화 능력을 보여줍니다.

논문 및 상세 해석:https://go.hyper.ai/IdI42

DelTA 개요

3 고롱RL

논문 제목:

GoLongRL: 다중 작업 정렬을 지원하는 역량 중심 장기 컨텍스트 강화 학습

장문맥 강화 학습은 종종 동질적인 검색 훈련 데이터로 인해 한계가 있으며, 기존 알고리즘은 여러 작업에 걸쳐 혼합된 보상을 처리할 때 규모 및 난이도 차이로 인해 이점 추정이 왜곡되는 경향이 있습니다. 본 연구에서는 핵심 역량 중심의 GoLongRL 방식을 제안하고, 9가지 핵심 역량과 맞춤형 보상을 포함하는 오픈 소스 데이터셋을 최초로 구축했습니다. 최적화 문제를 해결하기 위해, 작업 수준 정규화를 활용하여 서로 다른 보상 규모를 조정하고, 난이도에 적응하는 가중치를 결합하여 가치가 높고 어려운 샘플에 집중하는 TMN-Reweight 메커니즘을 설계했습니다. 평가 결과, 본 방식은 여러 장문맥 벤치마크에서 기존의 주요 모델들을 종합적으로 능가하며, 일반적인 추론 및 메모리 능력 저하를 효과적으로 방지하는 것으로 나타났습니다.

논문 및 상세 해석:https://go.hyper.ai/omy5E

4단계 역량 중심 RLVR 데이터셋 구축 프로세스 개요

저자들은 0.1K에서 256K 토큰에 이르는 컨텍스트 길이를 가진 9가지 역량 지향적 작업을 포괄하는 22,965개의 샘플로 구성된 데이터셋을 구축했습니다.

데이터세트

4 안티SD

논문 제목:

점별 상호 정보를 통한 강화 학습 추론을 위한 역자기 증류 기법

수학적 추론 과제에서 기존의 자기 증류(self-distillation) 방식은 모델이 쉽게 "지름길"을 택하게 하여, 이미 알려진 답에 과도하게 의존하고 다단계 탐색을 유도하는 진정한 사고 과정을 억제하는 문제를 야기합니다. 이러한 문제를 해결하기 위해 본 연구에서는 반자기 증류(Anti-Self-Distillation, AntiSD) 방법을 제안합니다. 이 방법은 교사 모델과 학생 모델 간의 격차를 수동적으로 좁히는 대신, JS 발산(JS divergence)을 최대화하여 기울기 신호를 역전시키고, 탐색적 사고 지표에 보상을 제공합니다. 또한, 엔트로피 기반 게이팅 메커니즘을 통해 훈련 안정성을 유지합니다. 다양한 매개변수 규모를 가진 여러 대규모 모델에 대한 테스트 결과, 이 방법은 목표 달성에 필요한 훈련 단계를 기준선 대비 5분의 1에서 2분의 1 수준으로 줄이면서, 여러 수학적 추론 벤치마크에서 최종 정확도를 최대 11.5% 포인트 향상시키는 것으로 나타났습니다.

논문 및 상세 해석:https://go.hyper.ai/Vax3f

훈련 역학

5 루브림EM

논문 제목:

RubricEM: 검증 가능한 보상을 넘어선 루브릭 기반 정책 분해를 활용한 메타 강화 학습

장기간에 걸친 심층 연구 과제는 객관적인 보상이 부족한 경우가 많으며, 기존의 강화 학습 방식은 효과적인 경험을 축적하지 못하는 거친 피드백만을 제공합니다. 본 연구에서는 혁신적인 "평가 척도"를 핵심 인터페이스로 사용하는 RubricEM 프레임워크를 제안합니다. 이 모델은 자체 개발한 척도를 기반으로 긴 연구 과정을 계획, 검색, 검토, 응답 단계로 나누어 세밀한 평가를 제공합니다. 동시에, 이 프레임워크는 메타 정책을 비동기적으로 학습하여 과거 상호작용을 재사용 가능한 반영적 기억으로 추출합니다. 여러 차례의 장기 연구 평가에서, 이 80억 원 규모의 모델은 수많은 오픈 소스 솔루션을 능가하고 최상위 수준의 클로즈드 소스 시스템에 근접하는 성능을 보여주며, 최소한의 학습 단계로 효율적인 장기 맥락 학습과 탁월한 교차 작업 일반화 능력을 달성했습니다.

논문 및 상세 해석:https://go.hyper.ai/xSVTh

RubricEM의 상세한 강화 학습 훈련 과정

데이터셋 구성 및 출처: 연구팀은 약 11,000개의 샘플로 구성된 지도 학습 기반 미세 조정 데이터셋을 구축했습니다. 데이터 출처는 Gemini 교사 모델에서 생성된 에이전트 궤적을 Qwen3에 맞게 조정한 것입니다.

데이터세트

6 폴리-EPO

논문 제목:

Poly-EPO: 탐색적 추론 모델 훈련

대규모 강화 학습 모델의 학습 후 처리는 종종 생성 다양성의 붕괴를 초래하여 새로운 추론 경로 탐색을 저해하고 테스트 단계에서의 계산량 증가를 야기합니다. 이러한 문제를 해결하기 위해 본 연구에서는 앙상블 강화 학습 기반의 Poly-EPO 알고리즘을 제안합니다. 이 알고리즘은 개별 응답을 독립적으로 평가하는 기존 방식에서 벗어나, 응답 집합의 평균 보상에 추론 정책의 다양성 점수를 곱하여 공동 최적화 목표로 설정함으로써, 다양한 탐색을 장려하는 신호를 이점 함수에 내재화합니다. 수학적 추론 평가에서, 이 알고리즘은 정책 동질화를 성공적으로 방지하고 pass@k 커버리지를 최대 20%까지 향상시키며, 다수결 투표 메커니즘 하에서 더욱 강력한 확장 잠재력을 보여줍니다.

논문 및 상세 해석:https://go.hyper.ai/j9Z3C

Poly-EPO는 추론 생성 과정에서 더 넓은 분기를 가능하게 합니다.

이번 주 논문 추천 내용은 여기까지입니다. 더 많은 최첨단 AI 연구 논문을 보시려면 hyper.ai 공식 웹사이트의 "최신 논문" 섹션을 방문하세요.

다음주에 뵙겠습니다!