HyperAIHyperAI

Command Palette

Search for a command to run...

올림피아드 수준의 수학 문제 해결을 위한 장기적 추론 에이전트

초록

대규모 언어 모델(Large Language Models, LLMs)은 검증 가능한 보상(Verifiable Rewards)을 활용한 강화학습(Reinforcement Learning with Verifiable Rewards, RLVR)을 통해 복잡한 추론 과제 해결에서 상당한 진전을 이뤘다. 이 발전은 신뢰할 수 있는 검증자(Verifier)에 의한 자동화된 감시 없이도 달성할 수 없었다. 그러나 현재의 결과 기반 검증자(outcome-based verifiers, OVs)는 긴 사고 흐름(Chain-of-Thought, CoT)에서 발생하는 신뢰할 수 없는 중간 단계를 검사하는 데 한계가 있다. 한편, 과정 기반 검증자(process-based verifiers, PVs)는 인간의 주석 비용이 막대해 고품질 주석 데이터의 부족으로 인해 복잡한 긴 CoT에서 오류를 신뢰성 있게 탐지하는 데 어려움을 겪는다. 이러한 문제를 해결하기 위해 본 연구는 긴 CoT의 요약된 결과를 기반으로 사고 과정을 검증하는 ‘결과 기반 과정 검증자(Outcome-based Process Verifier, OPV)’를 제안한다. OPV는 정확성과 효율성 둘 다를 달성함으로써 대규모 주석 생성을 가능하게 한다. 제안된 검증자를 강화하기 위해, 전문가 주석을 활용한 반복적 주도 학습(iterative active learning) 프레임워크를 도입하여 주석 비용을 최소화하면서 OPV의 검증 능력을 점진적으로 향상시킨다. 구체적으로 각 반복 단계에서 현재 최고 성능을 보이는 OPV가 가장 불확실한 사례들을 전문가가 주석하고, 이를 바탕으로 거절 미세조정(Rejection Fine-Tuning, RFT)과 RLVR를 통해 다음 라운드를 위한 새로운 OPV를 학습한다. 광범위한 실험을 통해 OPV의 우수한 성능과 넓은 적용 가능성을 입증하였다. OPV는 보유한 테스트셋인 hisbench에서 기존 최고 성능을 초과하며, Qwen3-Max-Preview와 같은 훨씬 더 큰 오픈소스 모델보다 F1 점수 83.1을 기록하여 76.3보다 우수한 성능을 보였다. 또한 OPV는 합성 데이터셋 내에서 잘못된 긍정 결과(false positives)를 효과적으로 탐지하며 전문가 평가와 매우 유사한 결과를 도출하였다. 정책 모델과 협업할 경우 OPV는 일관되게 성능 향상을 제공하며, 예를 들어 AIME2025에서 DeepSeek-R1-Distill-Qwen-32B의 정확도를 계산 자원이 증가함에 따라 55.2%에서 73.3%로 상승시켰다.


AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩
바로 사용 가능한 GPU
최적의 가격

HyperAI Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp