VGGT: 일반 3D 비전 모델
1. 튜토리얼 소개

VGGT는 2025년 3월 28일 옥스퍼드 대학교의 Meta AI 팀과 Visual Geometry Group(VGG)에서 발표한 피드포워드 신경망입니다. 외부 및 내부 카메라 매개변수, 포인트 맵, 깊이 맵, 3D 포인트 궤적을 포함하여 하나, 몇 개 또는 수백 개의 뷰에서 장면의 모든 주요 3D 속성을 몇 초 안에 직접 추론할 수 있습니다. 또한 간단하고 효율적이어서 1초 이내에 재구성을 완료하며, 시각적 기하 최적화 기법을 사용한 후처리가 필요한 다른 방법들을 능가합니다. 관련 논문 결과는 다음과 같습니다.VGGT: 시각 기하학 접지 변압기", CVPR 2025에 게재되었으며 CVPR 2025 최우수 논문상을 수상했습니다.
이 튜토리얼에서는 단일 RTX 4090 카드에 대한 리소스를 사용합니다.
2. 프로젝트 예시

3. 작업 단계
1. 컨테이너 시작 후 API 주소를 클릭하여 웹 인터페이스로 진입합니다.

2. 웹페이지에 접속하시면 모델을 이용하실 수 있습니다.
"잘못된 게이트웨이"가 표시되면 모델이 초기화 중임을 의미합니다. 모델이 크기 때문에 약 2~3분 정도 기다리신 후 페이지를 새로고침해 주시기 바랍니다.
사용 방법

매개변수 설명:
- 예측 모드를 선택하세요:
- 깊이 맵과 카메라 브랜치: 깊이 맵과 카메라 포즈 브랜치를 사용한 재구성.
- 포인트맵 브랜치: 포인트 클라우드 브랜치를 직접 사용하여 재구성합니다.
- 신뢰 임계값: 모델 출력에서 더 높은 신뢰도를 갖는 결과를 걸러내는 데 사용되는 신뢰 임계값입니다.
- 프레임에서 포인트 표시: 선택한 프레임에서 추출한 포인트를 표시할지 여부입니다.
- 카메라 표시: 카메라 위치를 표시할지 여부입니다.
- 하늘 필터링: 하늘 지점을 필터링할지 여부입니다.
- 검은색 배경 필터링: 검은색 배경을 가진 포인트를 필터링할지 여부입니다.
- 흰색 배경 필터링: 흰색 배경을 가진 포인트를 필터링할지 여부입니다.
4. 토론
🖌️ 고품질 프로젝트를 발견하시면, 백그라운드에 메시지를 남겨 추천해주세요! 또한, 튜토리얼 교환 그룹도 만들었습니다. 친구들의 QR코드 스캔과 [SD 튜토리얼] 댓글을 통해 그룹에 가입하여 다양한 기술 이슈에 대해 논의하고 신청 결과를 공유해 주시기 바랍니다.↓

인용 정보
이 프로젝트에 대한 인용 정보는 다음과 같습니다.
@inproceedings{wang2025vggt,
title={VGGT: Visual Geometry Grounded Transformer},
author={Wang, Jianyuan and Chen, Minghao and Karaev, Nikita and Vedaldi, Andrea and Rupprecht, Christian and Novotny, David},
booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition},
year={2025}
}