초록

다중모달 보상 모델(MRMs)은 응답 품질을 평가함으로써 대규모 시각언어 모델(LVLMs)의 훈련, 추론 및 평가에 핵심적인 역할을 한다. 그러나 기존의 영상 분야에서 MRMs를 평가하기 위한 벤치마크는 질문의 수와 다양성이 제한적이며, 평가 차원이 포괄적이지 못하고, 다양한 유형의 MRMs에 대한 충분한 평가가 이루어지지 않는다는 한계를 지닌다. 이러한 문제를 해결하기 위해, 우리는 영상 이해의 네 가지 핵심 측면—지각, 지식, 추론, 안전성—을 포괄하는 최초의 종합적 벤치마크인 VideoRewardBench를 제안한다. AI 기반의 데이터 처리 파이프라인을 통해, 1,563개의 고품질 선호 데이터 샘플(1,482개의 고유 영상, 1,559개의 고유 질문)로 구성된 데이터셋을 구축하였으며, 이는 기존에 질문이 가장 많은 벤치마크보다 15배에 달하는 규모이다. 각 샘플은 영상-텍스트 프롬프트, 선택된 응답, 거부된 응답으로 구성된 트리플릿 형태로 제공된다. 또한, 생성형, 판별형, 반스칼라형의 세 가지 유형에 걸쳐 총 28개의 다중모달 보상 모델에 대한 종합적 평가를 수행하였다. 평가 결과, 최고 성능을 보인 GPT-4o 모델도 전반적인 정확도가 57.0%에 그치며, 최신 오픈소스 모델인 Qwen2.5-VL-72B는 단지 53.3%의 성능을 기록했다. 분석을 통해 세 가지 핵심 통찰을 도출하였다: (i) 강화학습(RL)을 사용해 훈련된 MRMs가 RL 없이 훈련된 모델보다 반드시 더 우수한 다중모달 일반화 능력을 보이는 것은 아님; (ii) 판별형 MRMs를 제외한 다른 유형의 MRMs는 모델 용량에 관계없이 추론 시스케일링(inference-time scaling)을 통해 성능 향상을 얻을 수 있음; (iii) 입력 영상 프레임 수의 변동이 각각의 MRMs 유형에 따라 상이한 영향을 미친다. 우리는 VideoRewardBench가 영상 분야에서 MRMs의 평가 및 개발을 촉진하기 위한 도전적이고 유의미한 벤치마크가 될 것이라 믿는다.

소스 PDF 코드 보기