Command Palette

Search for a command to run...

2달 전

확산 대규모 언어 모델을 위한 강화 학습 프레임워크의 혁신

Yinjie Wang Ling Yang Bowen Li Ye Tian Ke Shen Mengdi Wang

확산 대규모 언어 모델을 위한 강화 학습 프레임워크의 혁신

초록

우리는 사전 훈련 이후 단계에 선호되는 추론 경로를 통합하는 트레이젝터리 인식 강화 학습 프레임워크인 TraceRL을 제안한다. 이 프레임워크는 다양한 아키텍처에 적용 가능한 특징을 지니며, 확산 기반의 가치 모델을 활용하여 훈련 안정성을 높인다. 복잡한 수학 및 코딩 과제에서 개선된 추론 성능을 입증하였으며, 블록별 모델을 더 큰 블록으로 적응시키는 데에도 활용 가능하여 샘플링의 유연성을 향상시킨다. TraceRL을 기반으로 개발한 일련의 최신 기술 수준의 확산 언어 모델인 TraDo를 도출하였다. 7B 규모의 순차적 언어 모델보다 작지만, TraDo-4B-Instruct는 복잡한 수학 추론 과제에서 일관되게 우수한 성능을 보였다. 특히 TraDo-8B-Instruct는 수학 추론 벤치마크에서 Qwen2.5-7B-Instruct 대비 6.1%의 상대 정확도 향상, Llama3.1-8B-Instruct 대비 51.3%의 상대 정확도 향상을 기록하였다. 교육과정 기반 학습(curriculum learning)을 통해 우리는 처음으로 긴 CoT(중간 추론 과정)를 지원하는 확산 언어 모델을 개발하였으며, MATH500 벤치마크에서 Qwen2.5-7B-Instruct 대비 18.1%의 상대 정확도 향상을 달성하였다. 재현 가능한 연구 및 실용적 응용을 촉진하기 위해, 다양한 아키텍처에서 확산 대규모 언어 모델(LLM)을 구축, 훈련, 배포할 수 있도록 포괄적인 오픈소스 프레임워크를 공개한다. 이 프레임워크는 추론 및 강화 학습 모두에 적합한 가속화된 KV 캐시 기술과 추론 엔진을 통합하며, 수학, 코딩, 일반 과제를 위한 다양한 지도형 미세조정 및 강화 학습 방법의 구현을 포함한다. 코드 및 모델: https://github.com/Gen-Verse/dLLM-RL

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
확산 대규모 언어 모델을 위한 강화 학습 프레임워크의 혁신 | 연구 논문 | HyperAI초신경