18일 전
VGGT: 시각적 기하학 기반 트랜스포머
Jianyuan Wang, Minghao Chen, Nikita Karaev, Andrea Vedaldi, Christian Rupprecht, David Novotny

초록
우리는 VGGT(Very Generic Geometry Transformer)를 소개합니다. 이 모델은 피드포워드 신경망으로, 하나, 몇 개 또는 수백 개의 뷰에서 카메라 매개변수, 포인트 맵, 깊이 맵 및 3D 포인트 트랙을 포함한 장면의 모든 주요 3D 속성을 직접 추론합니다. 이 접근 방식은 전형적으로 단일 작업에 제약을 받고 특화된 모델들이 주를 이루던 3D 컴퓨터 비전 분야에서 한 걸음 더 나아간 것입니다. 또한 간단하고 효율적이며, 이미지를 1초 미만의 시간 내에 재구성하며, 시각적 기하학 최적화 기술을 사용한 후처리가 필요한 대안보다 여전히 우수한 성능을 보입니다. 이 네트워크는 카메라 매개변수 추정, 다중 뷰 깊이 추정, 밀도 높은 포인트 클라우드 재구성 및 3D 포인트 추적 등 여러 3D 작업에서 최신 연구 결과를 달성했습니다. 또한 사전 학습된 VGGT를 특징 백본으로 사용하면 비강체 포인트 추적 및 피드포워드 새로운 뷰 합성과 같은 하류 작업의 성능이 크게 향상됨을 보여주었습니다. 코드와 모델은 이 https URL에서 공개적으로 이용 가능합니다.