Command Palette

Search for a command to run...

2일 전

HiPO: 동적 추론을 위한 하이브리드 정책 최적화 기법

HiPO: 동적 추론을 위한 하이브리드 정책 최적화 기법

초록

대규모 언어 모델(LLM)은 복잡한 과제에서 정확도를 향상시키기 위해 점점 더 사고의 흐름(Chain-of-Thought, CoT) 추론에 의존하고 있다. 그러나 항상 긴 추론 흐름을 생성하는 것은 비효율적이며, 이로 인해 토큰 사용량이 과도하게 증가하고 추론 비용이 높아진다. 본 논문은 적응형 추론 제어를 가능하게 하는 프레임워크인 하이브리드 정책 최적화(Hybrid Policy Optimization, HiPO)를 제안한다. HiPO는 LLM이 세부적인 추론을 수행할 때(Think-on)와 직접 응답할 때(Think-off)를 선택적으로 결정할 수 있도록 한다. 구체적으로 HiPO는 페어로 구성된 Think-on 및 Think-off 응답을 제공하는 하이브리드 데이터 파이프라인과 정확도와 효율성을 균형 있게 유지하면서 과도한 세부 추론에 대한 의존성을 피하는 하이브리드 강화학습 보상 시스템을 결합한다. 수학 및 프로그래밍 벤치마크에서 수행된 실험 결과, HiPO는 토큰 길이를 크게 단축하면서도 정확도를 유지하거나 향상시킬 수 있음을 확인하였다. 마지막으로, 본 연구는 HiPO가 효율적인 적응형 추론을 위한 체계적인 접근법이 될 수 있기를 기대하며, 자원이 제한된 실세계 환경에서 추론 중심 LLM의 실용적 도입을 촉진할 수 있기를 기대한다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
HiPO: 동적 추론을 위한 하이브리드 정책 최적화 기법 | 연구 논문 | HyperAI초신경