HyperAIHyperAI

Command Palette

Search for a command to run...

OPV: 효율적인 긴 체인오브사고 검증을 위한 결과 기반 프로세스 검증기

초록

대규모 언어 모델(LLMs)은 검증 가능한 보상(Verifiable Rewards)을 활용한 강화학습(RLVR)을 통해 복잡한 추론 과제 해결에서 큰 진전을 이루었다. 이러한 발전은 신뢰할 수 있는 검증자(verifier)에 의한 자동화된 감시 없이는 이루어질 수 없었다. 그러나 현재의 결과 기반 검증자(OVs)는 긴 사고 과정(Chain-of-Thought, CoT)에서 발생하는 신뢰할 수 없는 중간 단계를 검토하는 데 한계가 있다. 한편, 현재의 과정 기반 검증자(PVs)는 인간의 주석 비용이 막대하여 고품질 주석 데이터의 부족으로 인해 긴 복잡한 CoT에서 오류를 신뢰성 있게 탐지하는 데 어려움을 겪고 있다. 이를 해결하기 위해 우리는 긴 CoT에서 요약된 결과의 추론 과정을 검증하는 결과 기반 과정 검증자(Outcome-based Process Verifier, OPV)를 제안한다. 이는 정확하고 효율적인 검증을 가능하게 하며, 대규모 주석 생성을 지원한다. 제안된 검증자를 강화하기 위해, 전문가 주석을 활용한 반복적 능동 학습(active learning) 프레임워크를 도입하여 주석 비용을 최소화하면서 OPV의 검증 능력을 점진적으로 향상시킨다. 구체적으로 각 반복 단계에서 현재 최고 성능의 OPV가 가장 불확실한 사례들을 전문가가 주석하고, 이를 바탕으로 거절 미세조정(Rejection Fine-Tuning, RFT)과 RLVR를 통해 다음 라운드를 위한 새로운 OPV를 학습한다. 광범위한 실험을 통해 OPV의 우수한 성능과 넓은 적용 가능성을 입증하였다. OPV는 보유한 OPV-Bench에서 기존 최고 성능 기준을 초과하며, Qwen3-Max-Preview와 같은 훨씬 더 큰 오픈소스 모델보다 F1 점수 83.1을 기록하여 76.3을 상회한다. 또한, 합성 데이터셋 내에서 잘못된 긍정 결과(false positives)를 효과적으로 탐지하며 전문가 평가와 매우 유사한 결과를 보였다. 정책 모델과 협업할 경우 OPV는 일관되게 성능 향상을 가져오며, 예를 들어 AIME2025에서 DeepSeek-R1-Distill-Qwen-32B의 정확도를 계산 자원 예산이 증가함에 따라 55.2%에서 73.3%로 끌어올렸다.


AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩
바로 사용 가능한 GPU
최적의 가격

HyperAI Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp