13일 전

3D-R1: 3D VLMs의 추론 능력 향상으로 통합적 장면 이해 구현

Ting Huang, Zeyu Zhang, Hao Tang
3D-R1: 3D VLMs의 추론 능력 향상으로 통합적 장면 이해 구현
초록

대규모 시각-언어 모델(VLM)은 2차원 시각 이해 과제에서 큰 성과를 거두며, 이러한 능력을 3차원 장면 이해로 확장하려는 관심이 높아지고 있다. 그러나 현재의 3차원 VLM들은 고품질의 공간 데이터 부족 및 시점 가정의 정적 특성으로 인해 강건한 추론과 일반화 능력에서 어려움을 겪는다. 이러한 문제를 해결하기 위해, 3차원 VLM의 추론 능력을 향상시키는 기반 모델인 3D-R1을 제안한다. 구체적으로, 기존의 3차원-VL 데이터셋과 Gemini 2.5 Pro 기반의 데이터 엔진을 활용하여, 사고 과정(Chain-of-Thought, CoT)을 포함한 고품질 합성 데이터셋인 Scene-30K를 구축한다. 이 데이터셋은 3D-R1의 초기화 데이터로서 냉시작(cold-start) 역할을 수행한다. 또한, 강화학습 학습 과정에서 GRPO와 같은 RLHF 정책을 활용하여 추론 능력을 강화하고, 감지 정확도와 답변의 의미 정밀도를 유지하기 위해 세 가지 보상 함수를 도입한다: 인지 보상(perception reward), 의미 유사도 보상(semantic similarity reward), 형식 보상(format reward). 더불어, 3차원 장면 이해에 가장 정보량이 큰 시점을 적응적으로 선택하는 동적 시점 선택 전략을 제안한다. 광범위한 실험을 통해 3D-R1이 다양한 3차원 장면 벤치마크에서 평균 10%의 성능 향상을 보였으며, 3차원 장면 이해에서 추론 및 일반화 능력 향상 측면에서 효과성을 입증하였다. 코드: https://github.com/AIGeeksGroup/3D-R1, 웹사이트: https://aigeeksgroup.github.io/3D-R1.

3D-R1: 3D VLMs의 추론 능력 향상으로 통합적 장면 이해 구현 | 최신 연구 논문 | HyperAI초신경