Discord에서 논의하기

5달 전

Changpeng Yang Jinyang Wu Yuchen Liu Shuai Zhang Yang Li Qiliang Liang Hongzhen Wang Shuai Nie Jiaming Xu Runyu Shi

초록

강화학습은 대규모 언어 모델의 사후 훈련을 위한 패러다임으로 부상하며, 모델의 추론 능력을 향상시키고 있다. 이러한 접근 방식은 각 샘플에 대해 기대치보다 우수하거나 열악한 성능을 반영하는 이점(advantage) 값을 계산함으로써, 훈련에 긍정적 및 부정적 신호를 모두 제공한다. 그러나 기존 방법들에서 이러한 두 가지 신호를 조기 단계부터 무분별하게 혼합하는 것은 모호한 지침을 초래하고 성능 향상에 한계를 초래할 수 있다. 이 문제를 해결하기 위해 우리는 CAPO(Curriculum Advantage Policy Optimization)를 제안한다. CAPO는 이점 신호를 기반으로 한 적응형 커리큘럼 메커니즘으로, 긍정적 이점 샘플만을 활용해 이미테이션 학습을 부트스트랩함으로써 견고한 기반을 마련하고, 이후 부정적 신호를 점진적으로 도입하여 구분 능력을 기르는 방식으로, 복잡한 시나리오에서의 일반화 능력을 향상시킨다. GRPO, PPO, RLOO, Reinforce++ 등 다양한 최적화 방법과 호환되며, 수학적 추론 과제에서 일관되게 안정적이고 의미 있는 성능 향상을 달성함과 동시에, 다중모달 그래픽 사용자 인터페이스(GUI) 추론 시나리오로도 효과적으로 일반화되어, 유연하고 견고한 최적화 프레임워크로 자리매김한다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

Discord에서 논의하기

5달 전

Changpeng Yang Jinyang Wu Yuchen Liu Shuai Zhang Yang Li Qiliang Liang Hongzhen Wang Shuai Nie Jiaming Xu Runyu Shi

초록

강화학습은 대규모 언어 모델의 사후 훈련을 위한 패러다임으로 부상하며, 모델의 추론 능력을 향상시키고 있다. 이러한 접근 방식은 각 샘플에 대해 기대치보다 우수하거나 열악한 성능을 반영하는 이점(advantage) 값을 계산함으로써, 훈련에 긍정적 및 부정적 신호를 모두 제공한다. 그러나 기존 방법들에서 이러한 두 가지 신호를 조기 단계부터 무분별하게 혼합하는 것은 모호한 지침을 초래하고 성능 향상에 한계를 초래할 수 있다. 이 문제를 해결하기 위해 우리는 CAPO(Curriculum Advantage Policy Optimization)를 제안한다. CAPO는 이점 신호를 기반으로 한 적응형 커리큘럼 메커니즘으로, 긍정적 이점 샘플만을 활용해 이미테이션 학습을 부트스트랩함으로써 견고한 기반을 마련하고, 이후 부정적 신호를 점진적으로 도입하여 구분 능력을 기르는 방식으로, 복잡한 시나리오에서의 일반화 능력을 향상시킨다. GRPO, PPO, RLOO, Reinforce++ 등 다양한 최적화 방법과 호환되며, 수학적 추론 과제에서 일관되게 안정적이고 의미 있는 성능 향상을 달성함과 동시에, 다중모달 그래픽 사용자 인터페이스(GUI) 추론 시나리오로도 효과적으로 일반화되어, 유연하고 견고한 최적화 프레임워크로 자리매김한다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

모방에서 구분으로: 다영역 추론 과제를 향상시키는 일반화된 커리큘럼 우위 메커니즘으로 | 문서 | HyperAI초신경