초록

보상 모델은 시각-언어 시스템을 인간의 선호와 일치시키는 데 핵심적인 역할을 하지만, 기존의 접근 방식은 환상(홀루시네이션), 약한 시각적 기반, 그리고 검증을 위한 도구 사용의 불가능성 등의 문제를 겪으며, 복잡한 다중모달 추론 과제에서 신뢰도가 제한된다. 본 연구에서는 외부 도구(예: 이미지 자르기, 문서 페이지 검색 등)를 자율적으로 호출하여 판단을 검증 가능한 증거에 기반하게 하는 ‘에이전트형 다중모달 보상 모델(ARM-Thinker)’을 제안한다. 이는 정적이고 상호작용이 불가능한 보상 점수 산정 방식을 대체함으로써, 세부적인 시각적 정보를 검증하고, 다중 페이지 증거를 교차 비교하며, 추론 주장의 타당성을 검증할 수 있는 능력을 제공한다. 이러한 능력은 기존 보상 모델에서 찾아볼 수 없는 것이다. ARM-Thinker는 다단계 강화학습을 통해 도구 호출 결정과 판단 정확도를 동시에 최적화하도록 훈련한다. 에이전트형 보상 모델링의 평가를 위해, 이미지 수준의 도구를 활용한 세밀한 시각적 기반 평가, 문서 검색 도구를 통한 다중 페이지 문서 이해 평가, 텍스트 수준의 검증을 통한 지시사항 준수 평가를 포함하는 세 가지 벤치마크로 구성된 ARMBench-VL을 도입한다. 실험 결과 ARM-Thinker는 보상 모델링 벤치마크에서 평균 +16.2%의 성능 향상을 기록하였으며, 도구 사용 과제에서는 +9.6%의 성능 향상을 달성했고, 다중모달 수학 및 논리적 추론 벤치마크에서도 기존 베이스라인 모델들을 능가하였다. 본 연구 결과는 에이전트형 기능이 보상 모델의 정확도와 해석 가능성 모두를 크게 향상시킬 수 있음을 입증한다.

소스 PDF 코드 보기