Discord에서 논의하기

일 년 전

감독된 미세조정

지능형 질문 응답

Li Pengyi Skripkin Matvey Zubrey Alexander Kuznetsov Andrey Oseledets Ivan

초록

대형 언어 모델(LLM)은 추론 능력이 뛰어나지만, 훈련 후에도 여전히 작업 목표와의 일치성을 맞추는 것이 중요합니다. 기존의 강화 학습(RL) 방법들은 종종 비용이 많이 드는 인간의 주석이나 외부 보상 모델에 의존합니다. 우리는 모델 자체의 확신도를 보상 신호로 사용하여 라벨, 선호 모델, 또는 보상 설계 없이도 가능하도록 하는 자기 확신을 통한 강화 학습(RLSC)을 제안합니다. Qwen2.5-Math-7B 모델에 단지 각 문제당 16개 샘플과 10 또는 20번의 훈련 단계만 적용해도, RLSC는 AIME2024에서 +13.4%, MATH500에서 +21.2%, Minerva Math에서 +21.7%, Olympiadbench에서 +20.8%, 그리고 AMC23에서 +9.7%의 정확도 향상을 가져왔습니다. RLSC는 추론 모델을 위한 간단하고 확장 가능한 훈련 후 방법을 제공하며, 적은 수의 샘플과 비라벨 감독만 필요합니다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

Discord에서 논의하기

일 년 전

감독된 미세조정

지능형 질문 응답

Li Pengyi Skripkin Matvey Zubrey Alexander Kuznetsov Andrey Oseledets Ivan

초록

대형 언어 모델(LLM)은 추론 능력이 뛰어나지만, 훈련 후에도 여전히 작업 목표와의 일치성을 맞추는 것이 중요합니다. 기존의 강화 학습(RL) 방법들은 종종 비용이 많이 드는 인간의 주석이나 외부 보상 모델에 의존합니다. 우리는 모델 자체의 확신도를 보상 신호로 사용하여 라벨, 선호 모델, 또는 보상 설계 없이도 가능하도록 하는 자기 확신을 통한 강화 학습(RLSC)을 제안합니다. Qwen2.5-Math-7B 모델에 단지 각 문제당 16개 샘플과 10 또는 20번의 훈련 단계만 적용해도, RLSC는 AIME2024에서 +13.4%, MATH500에서 +21.2%, Minerva Math에서 +21.7%, Olympiadbench에서 +20.8%, 그리고 AMC23에서 +9.7%의 정확도 향상을 가져왔습니다. RLSC는 추론 모델을 위한 간단하고 확장 가능한 훈련 후 방법을 제공하며, 적은 수의 샘플과 비라벨 감독만 필요합니다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

자신감이 전부입니다: 언어 모델의 소수 샷 강화 학습 미세 조정 | 문서 | HyperAI초신경