Command Palette
Search for a command to run...
Meta는 깊이 추정 정확도가 0.9에 도달한 VLM³을 제안하여 시각 모델이 본질적으로 3D를 학습할 수 있음을 입증하고 Qwen3-VL-4B를 기반으로 여러 작업에 대한 통합 모델링을 달성했습니다.

3차원 공간 인식은 자율 주행, 로봇 공학, 3D 재구성 등의 분야에서 핵심적인 기초 역량입니다. 이 역량의 목표는 2차원 이미지로부터 실제 세계의 공간 구조, 크기 정보, 기하학적 관계를 복원하는 것입니다. 이미지 분류 및 객체 탐지와 같은 2차원 비전 작업과 비교했을 때,3차원 지각은 의미 이해 능력뿐만 아니라 정확한 공간 추론 및 기하학적 모델링 능력도 필요로 합니다.따라서 이는 오랫동안 컴퓨터 비전 분야에서 가장 도전적인 연구 방향 중 하나로 여겨져 왔습니다.
최근 몇 년 동안 시각-언어 모델(VLM)은 통합된 아키텍처와 대규모 사전 학습 덕분에 분류, 객체 탐지, 분할과 같은 2D 작업에서 상당한 발전을 이루었습니다. 그러나 깊이 추정, 픽셀 매칭, 카메라 자세 결정과 같이 정밀한 공간 추론이 요구되는 세밀한 작업에서는 표준 VLM의 성능이 여전히 특수 3D 모델에 비해 뒤처지고 있습니다. 현재,3D 비전 분야는 2D 비전 분야에서처럼 보편적인 기본 모델을 아직 개발하지 못했습니다. 주류 방법론은 여전히 특정 작업을 위해 설계된 전문가 모델에 의존하고 있습니다.여기에는 특수 네트워크 구조, 손실 함수 및 훈련 전략이 포함됩니다.
최근 연구에 따르면 3D 관련 수정이 없는 표준 시각 언어 모델(VLM)도 이미 픽셀 수준의 깊이 인식 능력을 보이는 것으로 나타났습니다. 이러한 현상은 범용 시각 언어 모델이 예상보다 강력한 3D 표현 능력을 갖고 있을 가능성을 시사하며, 다음과 같은 추가적인 탐구 가치가 있는 질문을 제기합니다. 표준 VLM이 추가적인 인코더, 시각적 단서 또는 작업별 모듈을 도입하지 않고도 더 광범위한 세밀한 3D 인식 작업을 처리할 수 있을까요?
이 문제를 해결하려면Meta는 프린스턴 대학교와 협력하여 VLM³(VLM Cubed) 프레임워크를 제안했습니다.본 연구는 표준 시각 언어 모델(VLM)을 기반으로, 통합된 데이터 구성 방식과 훈련 패러다임을 통해 객체 수준의 3D 이해, 깊이 추정, 픽셀 매칭, 카메라 자세 해석 등 네 가지 유형의 작업에 대한 통합 모델링을 구현한다. 또한, 세밀한 3D 인식에서 표준 VLM의 성능 한계를 체계적으로 평가한다.
"VLM3: 비전 언어 모델은 네이티브 3D 학습자입니다"라는 제목의 관련 연구 결과가 논문 사전 공개 플랫폼인 arXiv에 게재되었습니다.
연구 하이라이트:
* SpatialRGPT 벤치마크에서 VLM³-4B는 더 간소화된 아키텍처를 갖추고 추가 인코더가 필요 없어 더 큰 SpatialRGPT-8B보다 우수한 성능을 보입니다.
* 이전 최고 시각적 언어 모델인 DepthLM-7B와 비교하여 VLM³-4B는 평균 정확도 δ₁를 0.84에서 0.90으로 향상시켜 전문가용 깊이 추정 모델인 UnidepthV2와 동등한 성능을 달성했습니다.
* VLM³는 기존 시각 언어 모델의 종단점 오류(EPE)를 10분의 1 수준으로 줄여 DKM 및 RoMa와 같은 기존 전문가 모델보다 우수한 성능을 보여줍니다.
* VLM³는 AUC₃₀° 지표를 거의 무작위 수준인 5%에서 94%로 크게 향상시켜 VGGT를 능가하고 DA3-Giant와 유사한 수준에 도달했습니다.

논문 보기:
https://hyper.ai/papers/2605.30561
다중 작업 3D 인식을 위한 하이브리드 데이터 세트
3D 인식 작업에는 장면 규모, 시점 변화, 카메라 매개변수, 기하학적 관계 등 다양한 요소가 포함되므로 훈련 데이터의 품질과 범위에 대한 요구 사항이 매우 높습니다. 통합된 3D 표현 능력 학습을 지원하기 위해,본 연구는 단일 시점 및 다중 시점 장면을 포괄하는 하이브리드 데이터 시스템을 구축하여, 깊이 추정, 객체 수준의 3D 이해, 픽셀 매칭 및 카메라 자세 추정의 세 가지 유형의 작업을 수행한다.
메트릭 깊이 추정 작업에서연구진은 대규모 다중 장면 하이브리드 데이터셋을 사용했습니다. 기본 데이터는 DepthLM에서 가져온 것으로, Argoverse2, Waymo, NuScenes, ScanNet++, Taskonomy, HM3D, Matterport3D와 같은 주요 3D 장면 데이터를 포함합니다. 여기에 자체 제작한 1천만 장의 야외 거리 장면 이미지를 추가하여 학습 규모를 1천6백만 장에서 2천6백만 장으로 확장했습니다.최종 모델 학습에는 약 3200만 장의 이미지와 3억 2천만 개의 깊이 주석이 사용되었습니다.이 소프트웨어는 실내, 실외, 거리 풍경, 복잡한 개방형 환경 등 다양한 시나리오를 다룹니다.
기존 연구와 달리 VLM³는 균일한 샘플링 전략을 사용하지 않습니다. 대신 데이터셋 크기, 학습 난이도, 일반화 값에 따라 차별화된 훈련 가중치를 설계합니다. 실험 결과, 소규모 데이터셋은 혼합 학습 시 과적합되기 쉽고, 단순히 데이터 소스의 수를 늘리는 것만으로는 성능 향상이 보장되지 않는다는 것을 보여줍니다. 따라서 연구팀은 전반적인 일반화 능력을 향상시키기 위해 일부 소규모 데이터셋의 훈련 가중치를 적절히 줄였습니다.
객체 수준 3D 이해 작업은 SpatialRGPT와 동일한 표준 데이터셋을 사용합니다.이 데이터셋은 약 100만 개의 학습 이미지와 함께 정성적 및 정량적 질의응답 샘플을 포함합니다. 이 데이터셋은 현재 객체 수준의 3D 이해 작업에서 중요한 벤치마크로 자리 잡았습니다. 이미지 중 상당수는 카메라 자체 정보가 부족하여 실제 응용 시나리오에 더 가깝고, 따라서 모델의 공간 추론 능력을 더욱 현실적으로 반영합니다.
연구팀은 픽셀 매칭 및 카메라 자세 추정 작업을 위해 통합된 다중 시점 학습 데이터셋을 구축했습니다.이 데이터셋은 BlendedMVS, DynamicReplica, SailVOS3D, ScanNet++ 등 14개의 주요 데이터 소스를 통합하여 약 990만 쌍의 이미지로 구성되어 있습니다. 학습 품질을 보장하기 위해 연구진은 이미지 간 TP3T 값이 251을 초과하는 시각적 중첩을 보이는 샘플만 선별했으며, ScanNet++에서 30개의 독립적인 장면을 별도의 테스트 세트로 분리하여 학습 데이터와 테스트 데이터 간의 데이터 유출을 방지했습니다. 데이터셋 가중치는 각 데이터 소스의 원래 이미지 쌍 수를 기반으로 설정하여 학습 과정의 안정성과 적응성을 더욱 향상시켰습니다.
VLM³ 모델: 최소 수정 원칙에 따른 통합 3D 학습
VLM³의 설계 목표는 새로운 3D 비전 아키텍처를 구축하는 것이 아니라, 표준 시각 언어 모델의 원래 구조를 유지하면서 세밀한 3D 작업에서 해당 아키텍처의 잠재적 기능을 평가하는 것입니다. 따라서 전체 프레임워크는 추가 인코더, 독자적인 손실 함수 또는 작업 맞춤형 모듈을 도입하지 않고 "최소한의 수정 원칙"을 따릅니다.대신, 입력 표현 방식, 공간 위치 지정 방법, 데이터 구성 전략이라는 세 가지 측면을 최적화하는 데 초점을 맞춥니다.
본 연구에서는 Qwen3-VL-4B를 기본 모델로 사용하고, 기존 시각 언어 모델의 사전 학습 및 미세 조정 워크플로우와 일관성을 유지하기 위해 표준 지도 미세 조정(Supervised Fine-Tuning, SFT) 패러다임을 학습 과정 전반에 걸쳐 적용합니다. 이러한 설계 덕분에 별도의 전용 학습 파이프라인을 구축할 필요 없이, 본 프레임워크가 주류 시각 언어 모델(VLM) 시스템과 직접 호환될 수 있습니다.

첫째, 서로 다른 데이터 소스 간의 카메라 매개변수 불일치 문제에 관하여,VLM³는 통합 이미지 표준화 전략을 제안합니다.연구 결과에 따르면 여러 소스에서 가져온 3D 데이터 세트 간에는 카메라 내부 매개변수에 상당한 차이가 존재하는 경우가 많으며, 일부 네트워크 이미지에는 카메라 매개변수 정보가 아예 없는 경우도 있습니다. 이는 모델이 공간 기하학적 관계를 학습하는 능력에 직접적인 영향을 미칩니다. 따라서,이 프레임워크는 모든 입력 이미지를 표준 초점 거리 공간으로 매핑하고 기존의 단일 이미지 보정 모델을 사용하여 누락된 내부 매개변수를 추정합니다.이는 영상 촬영 조건의 차이로 인한 분포 변화를 줄여줍니다.
둘째,VLM³는 통합된 텍스트 공간 위치 지정 패러다임을 채택합니다.기존의 3D 비전 모델은 일반적으로 픽셀 수준의 위치 파악을 위해 추가적인 시각적 단서, 렌더링된 마커 또는 특수 설계된 위치 인코딩 모듈에 의존합니다. 그러나 VLM³는 이미지 좌표를 통합된 좌표 공간으로 정규화하고 위치 관계를 텍스트 형태로 표현합니다. 이러한 방식으로, 모델은 네이티브 언어 모델링 기능을 활용하여 추가적인 시각적 모듈 도입 없이 픽셀 수준 위치 파악, 영역 위치 파악 및 교차 시점 대응 학습을 수행할 수 있습니다. 동시에, 단일 이미지에 여러 위치 파악 질문-답변 샘플을 포함할 수 있어 학습 효율이 크게 향상됩니다. 깊이 추정 작업에서,단일 샘플이 제공할 수 있는 감독 신호의 양은 기존 방식보다 약 10배 더 많지만, 계산 비용은 거의 변하지 않습니다.
세 번째 핵심 설계는 정교한 데이터 혼합 전략입니다.성능 향상을 위해 복잡한 네트워크 구조에 의존하는 많은 방법과는 달리, VLM³는 데이터 구성 수준에서 최적화 노력을 집중합니다. 연구팀은 광범위한 실험을 통해 데이터 크기를 무작정 늘리거나 동일 가중치 혼합 학습을 사용하는 것이 성능 포화 또는 저하로 이어지는 경우가 많다는 것을 발견했습니다. 반면, 데이터 크기와 작업 특성에 기반한 차별화된 샘플링 전략을 설계하면 모델의 3차원 표현 능력을 더욱 효과적으로 향상시킬 수 있습니다. 따라서 데이터 할당은 학습 과정의 보조적인 요소가 아니라 전체 프레임워크의 핵심 구성 요소로 간주됩니다.
위의 디자인을 바탕으로VLM³는 또한 네 가지 유형의 3D 작업에 대한 통합 모델링을 가능하게 합니다.깊이 추정은 텍스트 기반 픽셀 위치 파악을 통해 지도 학습 샘플을 구성하고, 객체 수준의 3D 이해는 전용 마스크 인코더 대신 텍스트 좌표 상자를 사용하며, 픽셀 매칭은 교차 시점 대응을 좌표 예측 문제로 변환하고, 카메라 자세 추정은 복잡한 기하학적 매개변수를 이동 거리, 이동 방향, 회전 각도와 같은 텍스트 기반 질문-답변 형식으로 분해합니다. 원래 서로 다른 처리 모델에 의존했던 작업들은 궁극적으로 표준 VLM의 자기회귀 생성 프레임워크로 통합됩니다.

표준 시각 언어 모델이 처음으로 여러 세밀한 3D 작업에서 높은 정확도의 3D 이해를 달성했습니다.
VLM³의 효과를 체계적으로 평가하기 위해,연구팀은 거리 기반 깊이 추정, 객체 수준 3D 이해, 픽셀 매칭 및 카메라 자세 추정 등 네 가지 유형의 작업에 대한 실험을 수행했습니다.이는 일반적인 시각 언어 모델 및 현재 주류 전문가 모델과 비교됩니다.
메트릭 깊이 추정 작업에서본 연구에서는 일반적인 VLM과의 비교를 위해 9개의 공개 데이터셋을 선정하고, 5개의 대표적인 벤치마크에서 현재 최첨단 전문가 모델과 비교하여 성능을 평가합니다.δ₁을 주요 평가 지표로 사용하여 얻은 결과는 아래 표에 나와 있습니다. VLM³-4B는 기존의 대표적인 방법인 DepthLM-7B보다 전반적으로 우수한 성능을 보였습니다.평균 정확도가 0.84에서 0.90으로 향상되어 여러 데이터 세트에서 새로운 기록을 세웠습니다.동시에, 전반적인 성능은 UnidepthV2 및 MoGe-2와 같은 전문 심도 추정 모델 수준에 도달했습니다.

객체 수준의 3D 이해 과제에서, 본 연구는 SpatialRGPT의 평가 프레임워크를 완전히 재사용했습니다. 결과는 다음과 같습니다...파라미터 크기가 40억에 불과한 VLM³는 정성적 및 정량적 평가 모두에서 파라미터 크기가 80억인 SpatialRGPT보다 우수한 성능을 보입니다.후자는 공간적 위치 파악을 완료하기 위해 추가 마스크 인코더에 의존하는 반면, VLM³는 통합 텍스트 위치 파악 메커니즘에만 의존하여 더 나은 결과를 얻을 수 있으며, 이는 통합 텍스트 모델링이 공간 추론 작업에서 강력한 효과를 발휘함을 나타냅니다.
픽셀 매칭 작업에는 UFM 평가 시스템이 사용되었으며, 핵심 지표는 EPE(End Point Error)였습니다. 실험 결과에 따르면 VLM³은 기본 VLM에 비해 오류를 10분의 1 수준으로 줄이고, DKM 및 RoMa와 같은 기존 전문가 모델을 능가하며, 현재 최첨단 방법인 UFM보다 약간 낮은 성능을 보였습니다. 이는 다음과 같은 점을 시사합니다...통합된 텍스트 기반 모델링 접근 방식은 단일 시점 장면뿐만 아니라 여러 시점 간의 기하학적 대응 관계도 효과적으로 학습할 수 있습니다.

카메라 자세 추정 작업에서, 본 연구는 ETH3D 및 ScanNet++ 데이터셋에 대해 각각 AUC₃₀° 지표를 사용하여 평가했습니다. 결과는 다음과 같습니다...VLM³는 기본 VLM의 성능을 거의 무작위 예측 수준에서 AUC₃₀° 94%까지 향상시킵니다.이 모델은 VGGT 및 MapAnything과 같은 주류 방식을 능가하며 현재 최고의 모델인 DA3-Giant의 성능 수준에 근접합니다.
마지막 말
오랫동안 3D 비전 연구는 주로 깊이 추정, 픽셀 매칭, 자세 해석 등 다양한 작업에 특화된 모델을 설계하는 "작업 중심적" 접근 방식을 따랐습니다. 그러나 VLM³은 추가적인 인코더, 독자적인 손실 함수, 복잡한 시각적 단서 제공 메커니즘을 도입하지 않고도 표준화된 이미지 처리, 텍스트 기반 공간 모델링, 그리고 정교한 데이터 전략을 통해 표준 시각 언어 모델이 여러 세밀한 3D 작업에서 전문가 모델과 동등하거나 심지어 능가하는 성능을 달성할 수 있음을 보여줍니다. 이 연구 결과는 일반 시각 언어 모델의 3D 표현 능력이 기존의 예상을 훨씬 뛰어넘을 수 있음을 시사하며, 3D 비전 연구가 "작업별 최적화"에서 "통합 기본 모델"로 전환되고 있다는 새로운 실증적 근거를 제공합니다.








