Command Palette

Search for a command to run...

23일 전

메타인지가 추론 모델을 향상시킨다: 자기일치 강화 학습

Yoonjeon Kim Doohyuk Jang Eunho Yang

메타인지가 추론 모델을 향상시킨다: 자기일치 강화 학습

초록

최근 리소닝 모델에 대한 연구는 언어 모델의 메타 인식 능력, 즉 스스로 어떻게 사고해야 할지를 인지하는 능력에 초점을 맞추고 있다. 본 연구에서는 대규모 리소닝 모델이 진정한 롤아웃(rollout)과 예측된 메타 정보 사이에 심각한 불일치가 있음을 입증함으로써, 이러한 메타 인식 능력이 부족하다고 주장한다. 우리는 메타 예측을 진정한 롤아웃과 일치시킴으로써 성능 향상이 크게 이루어질 수 있다고 제안한다. 이 가설을 검증하기 위해, 자기 일치(Self-Alignment)를 통해 메타 인식을 강화하는 학습 파이프라인(MASA)을 설계하였으며, 강화된 메타 인식이 정확도 향상과 직접적으로 연결됨을 입증하였다. 기존의 메타인지적 리소닝 모델들과 달리, 본 방법은 외부 학습 데이터를 필요로 하지 않고, 스스로 생성한 신호를 활용하여 메타 인식을 학습한다. 또한 본 방법은 i) 단순하거나 해결 불가능한 영향을 주지 않는 영향력이 없는 프롬프트(Zero-variance prompts)를 필터링하고, ii) 정답 도달이 거의 불가능한 경우 긴 롤아웃을 조기에 중단함으로써 효율적인 학습을 가능하게 한다. 실험 결과는 매우 긍정적이다. 제안한 전략은 도메인 내 작업에서 정확도와 학습 효율성 모두에서 두드러진 개선을 보였으며, 도메인 외 벤치마크로의 일반화 능력 또한 뛰어나다. 구체적으로, 본 방법은 GRPO 학습 속도를 1.28배 이상 빠르게 하여 동일한 성능에 도달할 수 있으며, AIME25에서 정확도를 19.3% 향상시켰고, 6개의 수학 벤치마크에서 평균 6.2%의 정확도 향상을 달성하였다. 메타인지적 안내를 통한 학습은 도메인 외 일반화 능력을 강화하여, GPQA-Diamond에서 3.87%의 성능 향상을 기록했으며, 논리적, 과학적, 코딩 도메인을 아우르는 13개 벤치마크에서 평균 2.08%의 정확도 향상을 이끌어냈다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
메타인지가 추론 모델을 향상시킨다: 자기일치 강화 학습 | 연구 논문 | HyperAI초신경