12일 전

상호보완적 균형을 넘어서: 추론 모델의 지시 수행을 위한 자기지도 강화 학습

Qingyu Ren, Qianyu He, Bowei Zhang, Jie Zeng, Jiaqing Liang, Yanghua Xiao, Weikang Zhou, Zeye Sun, Fei Yu
상호보완적 균형을 넘어서: 추론 모델의 지시 수행을 위한 자기지도 강화 학습
초록

이론적 모델은 복잡한 문제 해결 능력에서 뛰어나지만, 이론적 능력과 지시 수행 능력 사이에 우려스러운 상충 관계를 보인다. 기존의 지시 수행 능력 향상 기법은 보다 강력한 외부 모델에 의존하는 방식을 취하고 있어, 방법론적 한계와 실용적 제약(예: 비용 증가, 접근성 제한 등)을 초래한다. 본 연구에서는 외부 감독 없이도 이론적 모델이 내부에서 생성하는 신호를 활용하여 지시 수행 능력을 향상시키는 자기지도 학습 기반 강화 학습 프레임워크를 제안한다. 광범위한 실험을 통해 제안하는 프레임워크가 이론적 성능을 유지하면서도 지시 수행 능력을 크게 향상시킴을 입증하였으며, 이는 이론적 모델의 지시 수행 능력을 확장하는 확장성과 비용 효율성 있는 접근법을 제공한다. 데이터와 코드는 공개적으로 제공되며, https://github.com/Rainier-rq/verl-if 에서 확인할 수 있다.