HyperAIHyperAI

Command Palette

Search for a command to run...

자신감이 전부입니다: 언어 모델의 소수 샷 강화 학습 미세 조정

Li Pengyi Skripkin Matvey Zubrey Alexander Kuznetsov Andrey Oseledets Ivan

초록

대형 언어 모델(LLM)은 추론 능력이 뛰어나지만, 훈련 후에도 여전히 작업 목표와의 일치성을 맞추는 것이 중요합니다. 기존의 강화 학습(RL) 방법들은 종종 비용이 많이 드는 인간의 주석이나 외부 보상 모델에 의존합니다. 우리는 모델 자체의 확신도를 보상 신호로 사용하여 라벨, 선호 모델, 또는 보상 설계 없이도 가능하도록 하는 자기 확신을 통한 강화 학습(RLSC)을 제안합니다. Qwen2.5-Math-7B 모델에 단지 각 문제당 16개 샘플과 10 또는 20번의 훈련 단계만 적용해도, RLSC는 AIME2024에서 +13.4%, MATH500에서 +21.2%, Minerva Math에서 +21.7%, Olympiadbench에서 +20.8%, 그리고 AMC23에서 +9.7%의 정확도 향상을 가져왔습니다. RLSC는 추론 모델을 위한 간단하고 확장 가능한 훈련 후 방법을 제공하며, 적은 수의 샘플과 비라벨 감독만 필요합니다.


AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩
바로 사용 가능한 GPU
최적의 가격

HyperAI Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
자신감이 전부입니다: 언어 모델의 소수 샷 강화 학습 미세 조정 | 문서 | HyperAI초신경