Command Palette
Search for a command to run...
자신감이 전부입니다: 언어 모델의 소수 샷 강화 학습 미세 조정
자신감이 전부입니다: 언어 모델의 소수 샷 강화 학습 미세 조정
Li Pengyi Skripkin Matvey Zubrey Alexander Kuznetsov Andrey Oseledets Ivan
초록
대형 언어 모델(LLM)은 추론 능력이 뛰어나지만, 훈련 후에도 여전히 작업 목표와의 일치성을 맞추는 것이 중요합니다. 기존의 강화 학습(RL) 방법들은 종종 비용이 많이 드는 인간의 주석이나 외부 보상 모델에 의존합니다. 우리는 모델 자체의 확신도를 보상 신호로 사용하여 라벨, 선호 모델, 또는 보상 설계 없이도 가능하도록 하는 자기 확신을 통한 강화 학습(RLSC)을 제안합니다. Qwen2.5-Math-7B 모델에 단지 각 문제당 16개 샘플과 10 또는 20번의 훈련 단계만 적용해도, RLSC는 AIME2024에서 +13.4%, MATH500에서 +21.2%, Minerva Math에서 +21.7%, Olympiadbench에서 +20.8%, 그리고 AMC23에서 +9.7%의 정확도 향상을 가져왔습니다. RLSC는 추론 모델을 위한 간단하고 확장 가능한 훈련 후 방법을 제공하며, 적은 수의 샘플과 비라벨 감독만 필요합니다.