2달 전

CoT-Space: 강화학습을 통한 내부의 천천히 사고하는 과정을 위한 이론적 프레임워크

Zeyu Gan Hao Yi Yong Liu

초록

강화학습(RL)은 대규모 언어모델(LLM)의 추론 능력을 향상시키는 핵심적인 접근법으로 부상하고 있다. 그러나 기존의 토큰 단위 강화학습 프레임워크는 체인오브사고(CoT)와 같은 복잡하고 다단계의 사고 과정의 추론 수준 특성과 일치하지 않는다는 중요한 이론적 격차가 존재한다. 이 문제를 해결하기 위해, 우리는 LLM의 추론을 이산적인 토큰 예측 작업에서 연속적인 추론 수준의 의미 공간 내 최적화 과정으로 재정의하는 새로운 이론적 프레임워크인 CoT-Space를 제안한다. 본 연구에서는 노이즈 관점과 리스크 관점에서 이 과정을 분석함으로써, 최적의 CoT 길이로의 수렴이 과소적합(underfitting)과 과적합(overfitting) 사이의 본질적인 상충 관계에서 자연스럽게 도출된다는 점을 입증한다. 더불어, 광범위한 실험을 통해 본 이론적 결과에 대한 강력한 실증적 검증을 제공한다. 본 프레임워크는 과도한 사고(overthinking)와 같은 경험적 현상에 대한 일관된 설명을 제공할 뿐만 아니라, 향후 보다 효과적이고 일반화 가능한 추론 에이전트의 개발을 지도할 수 있는 견고한 이론적 기반을 제시한다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩

즉시 사용 가능한 GPU

최적 가격

시작하기

Hyper Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

Command Palette

CoT-Space: 강화학습을 통한 내부의 천천히 사고하는 과정을 위한 이론적 프레임워크

Zeyu Gan Hao Yi Yong Liu

초록

AI로 AI 구축

Hyper Newsletters