계층적 예산 정책 최적화를 통한 적응적 추론

대규모 추론 모델은 광범위한 사고 과정 생성을 통해 놀랄 만큼 높은 성능을 달성하지만, 문제의 복잡도와 관계없이 동일한 추론 전략을 적용함으로써 계산 효율성이 크게 저하된다. 우리는 문제에 따라 다른 추론 깊이를 학습할 수 있도록 하는 강화학습 프레임워크인 계층적 예산 정책 최적화(Hierarchical Budget Policy Optimization, HBPO)를 제시한다. 이는 모델의 능력을 희생하지 않고 문제 특화된 추론 깊이를 학습할 수 있도록 한다. HBPO는 효율 중심 학습에서 탐색 공간 붕괴의 근본적인 문제를 해결하며, 이는 긴 출력 길이에 대한 벌점이 모델이 필요한 긴 추론 경로로부터 시스템적으로 편향되게 만든다. 계층적 예산 탐색을 통해 우리의 접근법은 롤아웃 샘플을 서로 다른 토큰 예산을 가진 여러 하위 그룹으로 분할하여, 자원의 효율적인 배분을 가능하게 하면서도 능력의 저하를 방지하려 한다. 우리는 문제의 복잡도에 맞춘 예산 인식 보상 메커니즘을 도입하여, 작업 요구사항과 계산 노력 사이의 자연스러운 상관관계를 모델이 발견할 수 있도록 한다. 광범위한 실험을 통해 HBPO가 네 가지 추론 기준에서 평균 토큰 사용량을 최대 60.6% 감소시키면서 정확도를 3.14% 개선함을 보여주었다. 기존의 방법들이 외부 제약을 강요하거나 이산적인 모드 선택에 의존하는 반면, HBPO는 문제의 복잡도에 따라 추론 깊이를 자동으로 조정하는 유기적인 적응 행동을 보인다. 우리의 결과는 추론 효율성과 능력이 본질적으로 충돌하지 않으며, 탐색 다양성을 보존하는 적절히 구조화된 계층적 학습을 통해 동시에 최적화할 수 있음을 시사한다.