Command Palette

Search for a command to run...

한 달 전

언어 모델을 위한 변분 추론

Xiangxin Zhou Zichen Liu Haonan Wang Chao Du Min Lin Chongxuan Li Liang Wang Tianyu Pang

언어 모델을 위한 변분 추론

초록

언어 모델을 위한 변분 추론 프레임워크를 제안한다. 이 프레임워크는 사고 흔적(thinking traces)을 은닉 변수(latent variables)로 간주하고, 변분 추론을 통해 이를 최적화한다. 증거 하한값(Evidence Lower Bound, ELBO)에서 출발하여, 더 강한 하한을 제공하기 위해 다중 사고 흔적(multi-trace) 목적함수로 확장하고, 변분 사후분포(variational posterior)의 학습을 안정화하는 전방 KL(Forward-KL) 공식을 제안한다. 또한, 거부 샘플링(fine-tuning)과 이진 보상 강화학습(Binary-reward RL), 특히 GRPO를 포함한 방법들이 국소적 전방 KL 목적함수로 해석될 수 있음을 보이며, 이 과정에서 모델의 정확도에 따라 자연스럽게 가중치가 부여되며, 이전에는 알려지지 않았던 쉬운 문제에 대한 편향이 드러남을 입증한다. 제안된 방법은 Qwen 2.5 및 Qwen 3 모델 세트를 대상으로 다양한 추론 과제에서 실험적으로 검증되었다. 종합적으로, 본 연구는 변분 추론과 강화학습 기반 방법을 통합하는 체계적인 확률론적 관점을 제시하며, 언어 모델의 추론 능력을 향상시키기 위한 안정적인 목적함수를 제공한다. 코드는 https://github.com/sail-sg/variational-reasoning 에서 공개되어 있다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
언어 모델을 위한 변분 추론 | 연구 논문 | HyperAI초신경