HyperAI초신경
하루 전

수학적 추론이 일반 LLM 기능을 향상시키는가? LLM 추론의 전이성 이해

Maggie Huan, Yuetai Li, Tuney Zheng, Xiaoyu Xu, Seungone Kim, Minxin Du, Radha Poovendran, Graham Neubig, Xiang Yue
수학적 추론이 일반 LLM 기능을 향상시키는가? LLM 추론의 전이성 이해
초록

수학 추론은 대형 언어 모델(LLM)의 발전을 상징하는 역할을 하고 있으며, 새로운 모델들이 MATH와 AIME와 같은 벤치마크에서 인간 수준의 성능을 빠르게 초월하고 있습니다. 그러나 수학 리더보드가 주마다 개선됨에 따라, 이러한 성과가 보다 넓은 문제 해결 능력을 반영하는 것인지 아니면 좁은 과적합(narrow overfitting)에 불과한 것인지를 묻는 것이 가치가 있습니다. 이 질문에 답하기 위해, 우리는 수학, 과학 질문 답변(QA), 에이전트 계획, 코딩, 그리고 표준 지시사항 준수 등 다양한 작업군에서 20개 이상의 오픈 웨이트 추론 조정 모델들을 평가했습니다. 놀랍게도 대부분의 수학에서 성공한 모델들은 다른 영역으로 그 성과를 전이시키지 못했습니다. 이 현상을 체계적으로 연구하기 위해, 우리는 Qwen3-14B 모델을 사용하여 오직 수학 데이터만을 사용하지만 서로 다른 조정 방법을 적용하여 제어된 실험을 수행했습니다. 결과적으로 강화 학습(RL)으로 조정된 모델들은 다양한 영역에서 잘 일반화되는 반면, 감독된 미세 조정(SFT)으로 조정된 모델들은 종종 일반적인 능력을 잊는 것으로 나타났습니다. 잠재 공간 표현과 토큰 공간 분포 변화 분석은 SFT가 표현과 출력에 큰 변동을 유발함을 보여주었으며, RL은 일반 영역 구조를 유지한다는 것을 확인할 수 있었습니다. 우리의 결과는 표준 후 훈련 레시피를 재검토할 필요성을 제시하며, 특히 추론 모델 발전을 위해 SFT로 정제된 데이터에 대한 의존성을 재고해야 함을 시사합니다.