세부 선호도 최적화가 VLM의 공간 추론을 개선합니다.

현재의 시각-언어 모델(Vision-Language Models, VLMs)은 세부적인 공간 추론에 어려움을 겪고 있으며, 특히 다단계 논리와 정확한 공간 정렬이 필요한 경우 더욱 그렇습니다. 본 연구에서는 이러한 한계를 해결하기 위해 설계된 시각-언어 추론 모델인 SpatialReasoner-R1을 소개합니다. 고품질의 공간 추론 감독을 구축하기 위해, 우리는 다양한 논리적으로 일관된 긴 사고 과정(Long Chain-of-Thought, LongCoT) 추론 경로를 생성하는 다중 모델 몬테카를로 트리 검색(Multi-Model Monte Carlo Tree Search, M3CTS) 방법을 설계했습니다. 또한, 시각적 일관성, 공간 정렬, 그리고 논리적 일관성을 기반으로 후보 응답을 평가하는 공간 보상 메커니즘에 의해 안내되는 세분화된 직접 선호도 최적화(fine-grained Direct Preference Optimization, fDPO)를 제안합니다. 이는 설명적 근거와 논리적 추론에 대한 세그먼트별 선호도 차이를 도입합니다. 실험 결과, fDPO는 일반적인 DPO에 비해 공간 품질 작업에서 평균 4.1%의 개선 효과를 보였으며, 공간 양 작업에서는 9.0%의 성능 향상을 나타냈습니다. fDPO로 학습된 SpatialReasoner-R1은 SPATIALRGPT-Bench에서 새로운 최고 수준(SoTA)을 설정하며, 가장 강력한 베이스라인보다 평균 정확도에서 9.8% 높은 성능을 보였으며 일반적인 시각-언어 작업에서도 경쟁력을 유지하였습니다.