HyperAI

대규모 언어 모델(LLM)은 복잡한 과제에서 정확도를 향상시키기 위해 점점 더 사고의 흐름(Chain-of-Thought, CoT) 추론에 의존하고 있다. 그러나 항상 긴 추론 흐름을 생성하는 것은 비효율적이며, 이로 인해 토큰 사용량이 과도하게 증가하고 추론 비용이 높아진다. 본 논문은 적응형 추론 제어를 가능하게 하는 프레임워크인 하이브리드 정책 최적화(Hybrid Policy Optimization, HiPO)를 제안한다. HiPO는 LLM이 세부적인 추론을 수행할 때(Think-on)와 직접 응답할 때(Think-off)를 선택적으로 결정할 수 있도록 한다. 구체적으로 HiPO는 페어로 구성된 Think-on 및 Think-off 응답을 제공하는 하이브리드 데이터 파이프라인과 정확도와 효율성을 균형 있게 유지하면서 과도한 세부 추론에 대한 의존성을 피하는 하이브리드 강화학습 보상 시스템을 결합한다. 수학 및 프로그래밍 벤치마크에서 수행된 실험 결과, HiPO는 토큰 길이를 크게 단축하면서도 정확도를 유지하거나 향상시킬 수 있음을 확인하였다. 마지막으로, 본 연구는 HiPO가 효율적인 적응형 추론을 위한 체계적인 접근법이 될 수 있기를 기대하며, 자원이 제한된 실세계 환경에서 추론 중심 LLM의 실용적 도입을 촉진할 수 있기를 기대한다.

HiPO: 동적 추론을 위한 하이브리드 정책 최적화 기법

Ken Deng Zizheng Zhan Wen Xiang Wenqiang Zhu Weihao Li Jingxuan Xu Tianhao Peng Xinping Lei Kun Wu Yifan Yao

초록

AI로 AI 구축

Hyper Newsletters

Command Palette

HiPO: 동적 추론을 위한 하이브리드 정책 최적화 기법

Ken Deng Zizheng Zhan Wen Xiang Wenqiang Zhu Weihao Li Jingxuan Xu Tianhao Peng Xinping Lei Kun Wu Yifan Yao18 more

초록

AI로 AI 구축

Hyper Newsletters

Ken Deng Zizheng Zhan Wen Xiang Wenqiang Zhu Weihao Li Jingxuan Xu Tianhao Peng Xinping Lei Kun Wu Yifan Yao