HyperAIHyperAI

Command Palette

Search for a command to run...

Depth-Anything-3: 어떤 관점에서든 시각적 공간 복원

날짜

5달 전

조직

Bytedance(字节跳动)

논문 URL

2511.10647

라이선스

Apache 2.0

GPU 컴퓨팅 에어드롭

단 20시간의 RTX 5090 컴퓨팅 리소스 $1 (가치 $7)
지금 사용하기

1. 튜토리얼 소개

짓다

Depth-Anything-3(DA3)는 ByteDance-Seed 팀이 2025년 11월에 발표한 획기적인 시각 기하학 모델입니다. 관련 연구 논문은 다음과 같습니다. Depth Anything 3: 모든 뷰에서 시각적 공간 복구 .

이 모델은 "미니멀리스트 모델링" 개념을 통해 시각 기하학 작업에 혁신을 가져왔습니다. 단순한 트랜스포머(예: 기본 DINO 인코더) 하나만을 백본 네트워크로 사용하고, 복잡한 멀티태스킹 학습 대신 "깊이 광선 표현"을 도입하여 알려진 카메라 포즈와 알려지지 않은 카메라 포즈를 포함한 모든 시각 입력으로부터 공간적으로 일관된 기하학적 구조를 예측할 수 있습니다. 이 모델의 성능은 DA2(단안 깊이 추정) 및 VGGT(다중 시점 깊이/포즈 추정)와 같은 기존 모델을 크게 능가합니다. 모든 모델은 공개적으로 사용 가능한 학술 데이터셋을 사용하여 정확도와 재현성의 균형을 맞춰 학습되었습니다.

핵심 기능:

  • 다중 작업 통합: 단일 모델로 단안 심도 추정, 다중 시점 심도 융합, 카메라 자세 추정 및 3D 가우시안 생성과 같은 작업을 지원합니다.
  • 높은 정밀도 출력: HiRoom 데이터셋에서 94.6%의 단안 심도 정확도를 달성했으며, ETH3D 재구성 정확도는 VGGT와 같은 모델을 능가합니다.
  • 다중 모델 적응: 메인(다목적), 메트릭(깊이 측정), 모노안(단안 전용) 및 네스티티드(중첩 융합) 시리즈 모델을 제공합니다.
  • 유연한 내보내기: GLB, NPZ, PLY 및 3DGS 비디오와 같은 형식을 지원하여 Blender와 같은 하위 3D 도구와 원활하게 통합됩니다.

이 튜토리얼에서는 Grado의 DA3 코어 모델을 배포하는 방법을 설명합니다. 이 모델은 "RTX_5090" 컴퓨팅 리소스를 갖추고 있어 비디오 메모리/메모리 병목 현상 없이 3D 가우시안 생성(고해상도) 및 다중 시점 3D 재구성과 같은 고부하 작업을 완벽하게 실행할 수 있습니다.

2. 효과 표시

Depth-Anything-3는 핵심 작업에서 탁월한 성능을 보여줍니다.

  • 단안 심도 추정: 단일 RGB 이미지에서 고정밀 심도 맵을 생성하여 장면의 공간적 계층 구조를 재구성합니다.
  • 다중 시점 심도 융합: 동일한 장면의 여러 이미지를 기반으로 일관된 심도 필드를 생성하여 고품질 3D 재구성을 지원합니다.
  • 카메라 포즈 추정: 다중 시점 협업 작업에 적응하여 카메라의 내부 및 외부 매개변수(외부 매개변수 [N,3,4], 내부 매개변수 [N,3,3])를 정확하게 예측합니다.
  • 3D 가우시안 생성: 고품질 3D 가우시안 모델을 직접 출력하여 새로운 시점 합성 기능을 지원합니다(프레임 속도 ≥ 30fps).
  • 깊이 측정 출력: 중첩된 직렬 모델은 실제 크기의 깊이를 생성할 수 있어 측량, 인테리어 디자인 및 기타 시나리오의 요구 사항을 충족합니다.

3. 작업 단계

1. 컨테이너를 시작하세요

컨테이너를 시작한 후 API 주소를 클릭하여 웹 인터페이스로 들어갑니다.

2. 시작하기

"Bad Gateway" 메시지가 표시되면 모델이 초기화 중이라는 의미입니다. 모델 크기가 크기 때문에 2~3분 정도 기다린 후 페이지를 새로고침해 주세요.

매개변수 설명

  • 샘플링 프레임 속도 설정
    • 샘플링 FPS(초당 프레임 수): 비디오 샘플링에 사용되는 초당 프레임 수를 제어합니다.
  • 이미지 처리 및 3D 추론 설정
    • 이미지 처리 방법: 더 많은 이미지를 처리할 수 있도록 이미지 처리 모드를 선택하십시오.
    • 3D 가우시안 스플래팅 추론: 3D 가우시안 스퍼터링 추론을 활성화하려면 3D 모델을 생성하는 데 추가적인 처리 시간이 필요합니다.
  • 렌더링 궤적 및 비디오 품질 설정
    • 3DGS 시점의 렌더링 궤적: 3DGS 시점에 사용할 렌더링 궤적 유형을 선택합니다.
    • 3DGS 렌더링 출력의 비디오 품질: 3DGS 렌더링 출력의 비디오 품질을 제어합니다.
  • 시각화 옵션
    • 카메라 보기: 카메라의 이동 경로를 3D 보기로 표시합니다.
    • 검은색 배경 필터: 포인트 클라우드에서 검은색 배경 영역을 제거합니다.
    • 흰색 배경 필터: 포인트 클라우드에서 흰색 배경 영역을 필터링합니다.
    • 필터 비율: 포인트 클라우드의 필터링 강도를 조절합니다.
    • 최대 포인트(K 포인트): 3D 모델을 GLB 형식으로 내보낼 때 사용할 최대 포인트 수를 설정합니다.

인용 정보

이 프로젝트에 대한 인용 정보는 다음과 같습니다.

@article{depthanything3,
  title={Depth Anything 3: Recovering the visual space from any views},
  author={Haotong Lin and Sili Chen and Jun Hao Liew and Donny Y. Chen and Zhenyu Li and Guang Shi and Jiashi Feng and Bingyi Kang},
  journal={arXiv preprint arXiv:2511.10647},
  year={2025}
}

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩
바로 사용 가능한 GPU
최적의 가격

HyperAI Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
Depth-Anything-3: 어떤 관점에서든 시각적 공간 복원 | 노트북 | HyperAI초신경