HyperAIHyperAI

Command Palette

Search for a command to run...

TaTToo: 도구 기반 사고를 통한 테스트 시스케일링을 위한 표형 추론용 PRM

Jiaru Zou Soumya Roy Vinay Kumar Verma Ziyi Wang David Wipf Pan Lu Sumit Negi James Zou Jingrui He

초록

최근 Process Reward Models (PRMs)는 테스트 시 규모 확장(test-time scaling, TTS) 환경에서 대규모 추론 모델(LRMs)의 추론 능력을 향상시키는 강력한 프레임워크로 부상하고 있다. 그러나 이러한 PRMs가 표 형식 추론 영역에서 LRM을 지도하는 데 가지는 잠재력은 여전히 탐색되지 않은 상태이다. 철저한 실험 분석을 통해 우리는 기존의 PRMs가 텍스트 기반 추론 단계의 지도에 널리 활용되긴 하나, 하위 표 검색(sub-table retrieval) 및 스키마(schema) 상호작용과 같은 표 고유의 연산에 취약함을 확인하였으며, 이로 인해 성능 상의 핵심적 한계가 발생하고 있음을 밝혔다. 이러한 한계를 해결하기 위해, 본 연구에서는 (i) 표 형식 추론 단계에 대해 명시적으로 추론하고 (ii) 도구 기반 검증을 통합하여 정밀한 보상 지도를 제공하는 새로운 표 기반(PRMs) 프레임워크인 TaTToo를 제안한다. 구체적으로, 먼저 도구 기반 실행과 표 검증 근거를 통합하여 6만 개 이상의 고품질 단계 수준(annotation) 데이터를 생성하는 확장 가능한 데이터 정제 파이프라인을 설계하였다. 수집된 데이터를 기반으로, 두 단계의 학습 프레임워크를 통해 TaTToo를 훈련한다: 첫 번째 단계에서는 도구 사용 추론 패턴을 포착하기 위해 콜드스타트(supervised fine-tuning)를 수행하고, 두 번째 단계에서는 도구 기반 보상 형성(tool-grounded reward shaping)을 활용한 강화학습을 통해 모델을 표 기반 검증과 일치시키는 방향으로 조정한다. 제안한 새로운 PRM이 유도하는 정책 개선 효과를 포괄적으로 평가하였다. 수치 추론, 사실 확인, 데이터 분석을 포함하는 5개의 도전적인 표 형식 추론 벤치마크에서 TaTToo는 추론 시 30.9%의 성능 향상을 달성하였으며, 72B 파라미터를 가진 강력한 PRM 기준 모델인 Qwen-2.5-Math-PRM-72B를 8B 파라미터 규모로도 능가하였고, 다양한 TTS 전략에 걸쳐 뛰어난 일반화 능력을 보였다.


AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩
바로 사용 가능한 GPU
최적의 가격

HyperAI Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
TaTToo: 도구 기반 사고를 통한 테스트 시스케일링을 위한 표형 추론용 PRM | 문서 | HyperAI초신경