Command Palette
Search for a command to run...

초록
대규모 언어 모델(LLM)은 복잡한 과제에서 정확도를 향상시키기 위해 점점 더 사고의 흐름(Chain-of-Thought, CoT) 추론에 의존하고 있다. 그러나 항상 긴 추론 흐름을 생성하는 것은 비효율적이며, 이로 인해 토큰 사용량이 과도하게 증가하고 추론 비용이 높아진다. 본 논문은 적응형 추론 제어를 가능하게 하는 프레임워크인 하이브리드 정책 최적화(Hybrid Policy Optimization, HiPO)를 제안한다. HiPO는 LLM이 세부적인 추론을 수행할 때(Think-on)와 직접 응답할 때(Think-off)를 선택적으로 결정할 수 있도록 한다. 구체적으로 HiPO는 페어로 구성된 Think-on 및 Think-off 응답을 제공하는 하이브리드 데이터 파이프라인과 정확도와 효율성을 균형 있게 유지하면서 과도한 세부 추론에 대한 의존성을 피하는 하이브리드 강화학습 보상 시스템을 결합한다. 수학 및 프로그래밍 벤치마크에서 수행된 실험 결과, HiPO는 토큰 길이를 크게 단축하면서도 정확도를 유지하거나 향상시킬 수 있음을 확인하였다. 마지막으로, 본 연구는 HiPO가 효율적인 적응형 추론을 위한 체계적인 접근법이 될 수 있기를 기대하며, 자원이 제한된 실세계 환경에서 추론 중심 LLM의 실용적 도입을 촉진할 수 있기를 기대한다.