Discord에서 논의하기

8달 전

Xuekai Zhu Daixuan Cheng Dinghuai Zhang Hengli Li Kaiyan Zhang Che Jiang Youbang Sun Ermo Hua Yuxin Zuo Xingtai Lv

초록

우리는 대규모 언어 모델(LLM) 강화학습(RL)에서 보상 최대화 대신 보상 분포 전체를 유량 균형(flow balancing)을 통해 일치시키는 FlowRL을 제안한다. 최근의 고급 추론 모델들은 PPO나 GRPO와 같은 보상 최대화 기법을 채택하고 있으나, 이는 주된 보상 신호에 과도하게 최적화되면서도 덜 자주 발생하지만 유효한 추론 경로를 간과하게 되어 다양성을 저해한다. 반면에, 우리는 학습 가능한 분할 함수를 활용해 스칼라 보상을 정규화된 목표 분포로 변환한 후, 정책과 목표 분포 사이의 역 KL 발산을 최소화하는 방식으로 접근한다. 이를 유량 균형 최적화 방법으로 구현함으로써 다양한 탐색과 일반화 가능한 추론 경로를 촉진한다. 우리는 수학 및 코드 추론 과제에서 실험을 수행하였으며, 수학 벤치마크에서 FlowRL은 GRPO 대비 평균 10.0% 향상, PPO 대비 5.1% 향상을 달성하였고, 코드 추론 과제에서도 일관되게 우수한 성능을 보였다. 이러한 결과는 LLM 강화학습에서 효율적인 탐색과 다양한 추론을 달성하기 위한 핵심 단계로서 보상 분포 일치가 중요함을 시사한다.

소스 PDF 코드 보기

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

Discord에서 논의하기

8달 전

Xuekai Zhu Daixuan Cheng Dinghuai Zhang Hengli Li Kaiyan Zhang Che Jiang Youbang Sun Ermo Hua Yuxin Zuo Xingtai Lv

초록

우리는 대규모 언어 모델(LLM) 강화학습(RL)에서 보상 최대화 대신 보상 분포 전체를 유량 균형(flow balancing)을 통해 일치시키는 FlowRL을 제안한다. 최근의 고급 추론 모델들은 PPO나 GRPO와 같은 보상 최대화 기법을 채택하고 있으나, 이는 주된 보상 신호에 과도하게 최적화되면서도 덜 자주 발생하지만 유효한 추론 경로를 간과하게 되어 다양성을 저해한다. 반면에, 우리는 학습 가능한 분할 함수를 활용해 스칼라 보상을 정규화된 목표 분포로 변환한 후, 정책과 목표 분포 사이의 역 KL 발산을 최소화하는 방식으로 접근한다. 이를 유량 균형 최적화 방법으로 구현함으로써 다양한 탐색과 일반화 가능한 추론 경로를 촉진한다. 우리는 수학 및 코드 추론 과제에서 실험을 수행하였으며, 수학 벤치마크에서 FlowRL은 GRPO 대비 평균 10.0% 향상, PPO 대비 5.1% 향상을 달성하였고, 코드 추론 과제에서도 일관되게 우수한 성능을 보였다. 이러한 결과는 LLM 강화학습에서 효율적인 탐색과 다양한 추론을 달성하기 위한 핵심 단계로서 보상 분포 일치가 중요함을 시사한다.

소스 PDF 코드 보기

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

FlowRL: 대상 보상 분포를 통한 LLM 추론 매칭 | 문서 | HyperAI초신경