HyperAI초신경

초록

대규모 언어 모델(LLMs)은 검증 가능한 보상(Verifiable Rewards)을 활용한 강화학습(RLVR)을 통해 복잡한 추론 과제 해결에서 큰 진전을 이루었다. 이러한 발전은 신뢰할 수 있는 검증자(verifier)에 의한 자동화된 감시 없이는 이루어질 수 없었다. 그러나 현재의 결과 기반 검증자(OVs)는 긴 사고 과정(Chain-of-Thought, CoT)에서 발생하는 신뢰할 수 없는 중간 단계를 검토하는 데 한계가 있다. 한편, 현재의 과정 기반 검증자(PVs)는 인간의 주석 비용이 막대하여 고품질 주석 데이터의 부족으로 인해 긴 복잡한 CoT에서 오류를 신뢰성 있게 탐지하는 데 어려움을 겪고 있다. 이를 해결하기 위해 우리는 긴 CoT에서 요약된 결과의 추론 과정을 검증하는 결과 기반 과정 검증자(Outcome-based Process Verifier, OPV)를 제안한다. 이는 정확하고 효율적인 검증을 가능하게 하며, 대규모 주석 생성을 지원한다. 제안된 검증자를 강화하기 위해, 전문가 주석을 활용한 반복적 능동 학습(active learning) 프레임워크를 도입하여 주석 비용을 최소화하면서 OPV의 검증 능력을 점진적으로 향상시킨다. 구체적으로 각 반복 단계에서 현재 최고 성능의 OPV가 가장 불확실한 사례들을 전문가가 주석하고, 이를 바탕으로 거절 미세조정(Rejection Fine-Tuning, RFT)과 RLVR를 통해 다음 라운드를 위한 새로운 OPV를 학습한다. 광범위한 실험을 통해 OPV의 우수한 성능과 넓은 적용 가능성을 입증하였다. OPV는 보유한 OPV-Bench에서 기존 최고 성능 기준을 초과하며, Qwen3-Max-Preview와 같은 훨씬 더 큰 오픈소스 모델보다 F1 점수 83.1을 기록하여 76.3을 상회한다. 또한, 합성 데이터셋 내에서 잘못된 긍정 결과(false positives)를 효과적으로 탐지하며 전문가 평가와 매우 유사한 결과를 보였다. 정책 모델과 협업할 경우 OPV는 일관되게 성능 향상을 가져오며, 예를 들어 AIME2025에서 DeepSeek-R1-Distill-Qwen-32B의 정확도를 계산 자원 예산이 증가함에 따라 55.2%에서 73.3%로 끌어올렸다.

초록

Zijian Wu Lingkai Kong Wenwei Zhang Songyang Gao Yuzhe Gu Zhongrui Cai Tianyou Ma Yuhong Liu Zhi Wang Runyuan Ma

초록

AI로 AI 구축

HyperAI Newsletters

Zijian Wu Lingkai Kong Wenwei Zhang Songyang Gao Yuzhe Gu Zhongrui Cai Tianyou Ma Yuhong Liu Zhi Wang Runyuan Ma

초록

AI로 AI 구축

HyperAI Newsletters

Zijian Wu Lingkai Kong Wenwei Zhang Songyang Gao Yuzhe Gu Zhongrui Cai Tianyou Ma Yuhong Liu Zhi Wang Runyuan Ma

초록

AI로 AI 구축

HyperAI Newsletters

Command Palette

OPV: 효율적인 긴 체인오브사고 검증을 위한 결과 기반 프로세스 검증기

Zijian Wu Lingkai Kong Wenwei Zhang Songyang Gao Yuzhe Gu Zhongrui Cai Tianyou Ma Yuhong Liu Zhi Wang Runyuan Ma5 more

초록

AI로 AI 구축

HyperAI Newsletters

Command Palette

OPV: 효율적인 긴 체인오브사고 검증을 위한 결과 기반 프로세스 검증기

Zijian Wu Lingkai Kong Wenwei Zhang Songyang Gao Yuzhe Gu Zhongrui Cai Tianyou Ma Yuhong Liu Zhi Wang Runyuan Ma5 more

초록

AI로 AI 구축

HyperAI Newsletters

Command Palette

OPV: 효율적인 긴 체인오브사고 검증을 위한 결과 기반 프로세스 검증기

Zijian Wu Lingkai Kong Wenwei Zhang Songyang Gao Yuzhe Gu Zhongrui Cai Tianyou Ma Yuhong Liu Zhi Wang Runyuan Ma5 more

초록

AI로 AI 구축

HyperAI Newsletters

Zijian Wu Lingkai Kong Wenwei Zhang Songyang Gao Yuzhe Gu Zhongrui Cai Tianyou Ma Yuhong Liu Zhi Wang Runyuan Ma

Zijian Wu Lingkai Kong Wenwei Zhang Songyang Gao Yuzhe Gu Zhongrui Cai Tianyou Ma Yuhong Liu Zhi Wang Runyuan Ma

Zijian Wu Lingkai Kong Wenwei Zhang Songyang Gao Yuzhe Gu Zhongrui Cai Tianyou Ma Yuhong Liu Zhi Wang Runyuan Ma