Command Palette
Search for a command to run...
Xiangxin Zhou Zichen Liu Haonan Wang Chao Du Min Lin Chongxuan Li Liang Wang Tianyu Pang

초록
언어 모델을 위한 변분 추론 프레임워크를 제안한다. 이 프레임워크는 사고 흔적(thinking traces)을 은닉 변수(latent variables)로 간주하고, 변분 추론을 통해 이를 최적화한다. 증거 하한값(Evidence Lower Bound, ELBO)에서 출발하여, 더 강한 하한을 제공하기 위해 다중 사고 흔적(multi-trace) 목적함수로 확장하고, 변분 사후분포(variational posterior)의 학습을 안정화하는 전방 KL(Forward-KL) 공식을 제안한다. 또한, 거부 샘플링(fine-tuning)과 이진 보상 강화학습(Binary-reward RL), 특히 GRPO를 포함한 방법들이 국소적 전방 KL 목적함수로 해석될 수 있음을 보이며, 이 과정에서 모델의 정확도에 따라 자연스럽게 가중치가 부여되며, 이전에는 알려지지 않았던 쉬운 문제에 대한 편향이 드러남을 입증한다. 제안된 방법은 Qwen 2.5 및 Qwen 3 모델 세트를 대상으로 다양한 추론 과제에서 실험적으로 검증되었다. 종합적으로, 본 연구는 변분 추론과 강화학습 기반 방법을 통합하는 체계적인 확률론적 관점을 제시하며, 언어 모델의 추론 능력을 향상시키기 위한 안정적인 목적함수를 제공한다. 코드는 https://github.com/sail-sg/variational-reasoning 에서 공개되어 있다.