추적 가능한 증거 강화 시각적 근거 추론: 평가 및 방법론

OpenAI-o3와 같은 모델들은 인간의 "이미지로 생각하기"와 유사하게 시각 영역을 동적으로 참조하여 시각적 근거 추론을 선도하고 있습니다. 그러나 이러한 능력을 종합적으로 평가할 수 있는 벤치마크는 아직 존재하지 않습니다. 이 간극을 메우기 위해, 우리는 세 가지 원칙에 기반한 진단 벤치마크인 TreeBench (Traceable Evidence Evaluation Benchmark)를 제안합니다: (1) 복잡한 장면에서 미묘한 대상에 대한 집중된 시각 인식, (2) 바운딩 박스 평가를 통한 추적 가능한 증거, (3) 단순 객체 위치화를 넘어서 객체 상호 작용과 공간 계층 구조를 테스트하는 이차 추론.밀집된 객체가 포함된 이미지를 우선으로 고려하여, 우리는 SA-1B에서 1천 개의 고품질 이미지를 샘플링하였고, 8명의 LMM 전문가들이 각 이미지에 대해 질문, 후보 옵션 및 답변을 수동으로 주석 처리하였습니다. 세 단계의 품질 관리를 거친 후, TreeBench는 405개의 도전적인 시각 질문-답변 쌍으로 구성되어 있으며, 가장 발전된 모델들조차 이 벤치마크에서 어려움을 겪고 있습니다. 예를 들어, OpenAI-o3는 정확도가 54.87%에 불과합니다.또한, 우리는 TreeVGR (Traceable Evidence Enhanced Visual Grounded Reasoning)라는 훈련 패러다임을 소개합니다. 이는 강화 학습을 통해 위치화와 추론을 동시에 감독함으로써 정확한 위치화와 설명 가능한 추론 경로를 가능하게 합니다. Qwen2.5-VL-7B에서 초기화된 TreeVGR는 V* Bench (+16.8), MME-RealWorld (+12.6), 그리고 TreeBench (+13.4)에서 성능 향상을 보였으며, 이는 추적 가능성(traceability)이 시각 근거 추론의 발전에 핵심임을 입증합니다. 코드는 https://github.com/Haochen-Wang409/TreeVGR에서 이용할 수 있습니다.