Command Palette
Search for a command to run...
Zeyu Gan Hao Yi Yong Liu

초록
강화학습(RL)은 대규모 언어모델(LLM)의 추론 능력을 향상시키는 핵심적인 접근법으로 부상하고 있다. 그러나 기존의 토큰 단위 강화학습 프레임워크는 체인오브사고(CoT)와 같은 복잡하고 다단계의 사고 과정의 추론 수준 특성과 일치하지 않는다는 중요한 이론적 격차가 존재한다. 이 문제를 해결하기 위해, 우리는 LLM의 추론을 이산적인 토큰 예측 작업에서 연속적인 추론 수준의 의미 공간 내 최적화 과정으로 재정의하는 새로운 이론적 프레임워크인 CoT-Space를 제안한다. 본 연구에서는 노이즈 관점과 리스크 관점에서 이 과정을 분석함으로써, 최적의 CoT 길이로의 수렴이 과소적합(underfitting)과 과적합(overfitting) 사이의 본질적인 상충 관계에서 자연스럽게 도출된다는 점을 입증한다. 더불어, 광범위한 실험을 통해 본 이론적 결과에 대한 강력한 실증적 검증을 제공한다. 본 프레임워크는 과도한 사고(overthinking)와 같은 경험적 현상에 대한 일관된 설명을 제공할 뿐만 아니라, 향후 보다 효과적이고 일반화 가능한 추론 에이전트의 개발을 지도할 수 있는 견고한 이론적 기반을 제시한다.