HyperAI초신경
19일 전

세부 선호도 최적화가 VLM의 공간 추론을 개선합니다.

Yifan Shen, Yuanzhe Liu, Jingyuan Zhu, Xu Cao, Xiaofeng Zhang, Yixiao He, Wenming Ye, James Matthew Rehg, Ismini Lourentzou
세부 선호도 최적화가 VLM의 공간 추론을 개선합니다.
초록

현재의 시각-언어 모델(Vision-Language Models, VLMs)은 세부적인 공간 추론에 어려움을 겪고 있으며, 특히 다단계 논리와 정확한 공간 정렬이 필요한 경우 더욱 그렇습니다. 본 연구에서는 이러한 한계를 해결하기 위해 설계된 시각-언어 추론 모델인 SpatialReasoner-R1을 소개합니다. 고품질의 공간 추론 감독을 구축하기 위해, 우리는 다양한 논리적으로 일관된 긴 사고 과정(Long Chain-of-Thought, LongCoT) 추론 경로를 생성하는 다중 모델 몬테카를로 트리 검색(Multi-Model Monte Carlo Tree Search, M3CTS) 방법을 설계했습니다. 또한, 시각적 일관성, 공간 정렬, 그리고 논리적 일관성을 기반으로 후보 응답을 평가하는 공간 보상 메커니즘에 의해 안내되는 세분화된 직접 선호도 최적화(fine-grained Direct Preference Optimization, fDPO)를 제안합니다. 이는 설명적 근거와 논리적 추론에 대한 세그먼트별 선호도 차이를 도입합니다. 실험 결과, fDPO는 일반적인 DPO에 비해 공간 품질 작업에서 평균 4.1%의 개선 효과를 보였으며, 공간 양 작업에서는 9.0%의 성능 향상을 나타냈습니다. fDPO로 학습된 SpatialReasoner-R1은 SPATIALRGPT-Bench에서 새로운 최고 수준(SoTA)을 설정하며, 가장 강력한 베이스라인보다 평균 정확도에서 9.8% 높은 성능을 보였으며 일반적인 시각-언어 작업에서도 경쟁력을 유지하였습니다.