3일 전
LAPO: 길이 적응형 정책 최적화를 통한 추론 효율성 내재화
Xingyu Wu; Yuchen Yan; Shangke Lyu; Linjuan Wu; Yiwen Qiu; Yongliang Shen; Weiming Lu; Jian Shao; Jun Xiao; Yueting Zhuang

초록
대규모 추론 모델은 확장된 사고 과정 시퀀스를 통해 놀랄 만한 성능을 달성했지만, 이 계산 자유도는 간단한 문제에서도 과도한 토큰 생성을 초래합니다. 우리는 '길이 적응형 정책 최적화(LAPO)'라는 새로운 프레임워크를 제시합니다. 이 프레임워크는 추론 길이 조절을 외부적 제약에서 모델 내재적 능력으로 전환합니다. 기존의 접근 방식이 엄격한 제한을 강요하거나 후기 개입에 의존하는 것과 달리, LAPO는 이중 단계 강화 학습 과정을 통해 모델이 적절한 추론 깊이에 대한 내재적 이해를 형성하도록 합니다. 첫 번째 단계에서 모델은 성공적인 해결 길이의 통계적 분포를 탐구함으로써 자연스러운 추론 패턴을 학습합니다. 두 번째 단계에서는 이러한 패턴을 메타인지적 안내로 활용하여, 직접적으로 모델의 추론 맥락 내에 삽입함으로써 추론 시의 유연성을 보장합니다. 수학적 추론 벤치마크에서의 실험 결과는 LAPO가 토큰 사용량을 최대 40.9%까지 줄이고 정확도를 2.3% 향상시킨다는 것을 보여줍니다. 우리의 분석 결과, LAPO로 훈련된 모델은 문제의 복잡도에 따라 계산 자원을 할당하는 새로운 능력을 갖게 되며, 품질을 희생하지 않고 효율적인 추론을 달성할 수 있음을 확인했습니다.