Command Palette
Search for a command to run...
Jiaru Zou Soumya Roy Vinay Kumar Verma Ziyi Wang David Wipf Pan Lu Sumit Negi James Zou Jingrui He

초록
최근 Process Reward Models (PRMs)는 테스트 시 규모 확장(test-time scaling, TTS) 환경에서 대규모 추론 모델(LRMs)의 추론 능력을 향상시키는 강력한 프레임워크로 부상하고 있다. 그러나 이러한 PRMs가 표 형식 추론 영역에서 LRM을 지도하는 데 가지는 잠재력은 여전히 탐색되지 않은 상태이다. 철저한 실험 분석을 통해 우리는 기존의 PRMs가 텍스트 기반 추론 단계의 지도에 널리 활용되긴 하나, 하위 표 검색(sub-table retrieval) 및 스키마(schema) 상호작용과 같은 표 고유의 연산에 취약함을 확인하였으며, 이로 인해 성능 상의 핵심적 한계가 발생하고 있음을 밝혔다. 이러한 한계를 해결하기 위해, 본 연구에서는 (i) 표 형식 추론 단계에 대해 명시적으로 추론하고 (ii) 도구 기반 검증을 통합하여 정밀한 보상 지도를 제공하는 새로운 표 기반(PRMs) 프레임워크인 TaTToo를 제안한다. 구체적으로, 먼저 도구 기반 실행과 표 검증 근거를 통합하여 6만 개 이상의 고품질 단계 수준(annotation) 데이터를 생성하는 확장 가능한 데이터 정제 파이프라인을 설계하였다. 수집된 데이터를 기반으로, 두 단계의 학습 프레임워크를 통해 TaTToo를 훈련한다: 첫 번째 단계에서는 도구 사용 추론 패턴을 포착하기 위해 콜드스타트(supervised fine-tuning)를 수행하고, 두 번째 단계에서는 도구 기반 보상 형성(tool-grounded reward shaping)을 활용한 강화학습을 통해 모델을 표 기반 검증과 일치시키는 방향으로 조정한다. 제안한 새로운 PRM이 유도하는 정책 개선 효과를 포괄적으로 평가하였다. 수치 추론, 사실 확인, 데이터 분석을 포함하는 5개의 도전적인 표 형식 추론 벤치마크에서 TaTToo는 추론 시 30.9%의 성능 향상을 달성하였으며, 72B 파라미터를 가진 강력한 PRM 기준 모델인 Qwen-2.5-Math-PRM-72B를 8B 파라미터 규모로도 능가하였고, 다양한 TTS 전략에 걸쳐 뛰어난 일반화 능력을 보였다.