Command Palette

Search for a command to run...

한 달 전

컴퓨트 어 티처: 추론 계산을 참고 없는 감독으로 전환하기

Dulhan Jayalath Shashwat Goel Thomas Foster Parag Jain Suchin Gururangan et al

컴퓨트 어 티처: 추론 계산을 참고 없는 감독으로 전환하기

초록

학습 신호는 사후 훈련 과정에서 지표가 없을 경우 어디서 오는가? 우리는 추론 시점의 모델 탐색을 ‘계산량을 선생님으로 삼는다’(Compute as Teacher, CaT) 방식으로 전환함으로써, 참조 없는 감독 신호를 생성하는 방법을 제안한다. 이 방법은 병렬적인 여러 개의 롤아웃(rollout) 그룹에서 하나의 단일 참조를 합성한 후, 이를 목표로 최적화함으로써 모델의 자체 탐색을 참조 없는 감독 신호로 전환한다. 구체적으로, 현재 정책이 병렬 롤아웃 그룹을 생성하고, 고정된 앵커(초기 정책)가 이들 간의 누락과 모순을 조율하여 참조를 추정한다. 이를 통해 추론 시점의 추가 계산량이 선생님 신호로 전환된다. 이 신호를 두 가지 상황에서 보상으로 전환한다: (i) 검증 가능한 과제는 최종 답변의 프로그래밍적 동치성(semantic equivalence)을 기준으로 평가하고, (ii) 검증이 불가능한 과제는 모델이 자발적으로 제안한 평가 기준(이진형, 검증 가능한 기준)을 사용하며, 이를 독립적인 LLM 평가자(판단자)가 평가하고, 만족된 비율에 따라 보상을 부여한다. 선택 기반 방법(예: best-of-N, 다수결, 혼란도, 평가자 점수 등)과 달리, CaT의 합성 방식은 다수의 롤아웃이 모두 틀렸을지라도 올바른 결론을 도출할 수 있으며, 롤아웃 수가 많을수록 성능이 향상된다. 이는 추론 시점에서 수행되는 프로시저로서, CaT는 Gemma 3 4B, Qwen 3 4B, Llama 3.1 8B 모델의 성능을 향상시켰다(예: MATH-500에서 최대 +27%, HealthBench에서 최대 +12%). 강화학습과 결합한 CaT-RL을 적용하면 추가적인 성능 향상(최대 +33% 및 +30%)을 달성할 수 있었으며, 훈련된 정책은 초기 선생님 신호를 초월하는 성능을 보였다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
컴퓨트 어 티처: 추론 계산을 참고 없는 감독으로 전환하기 | 연구 논문 | HyperAI초신경