Command Palette

Search for a command to run...

10일 전

Depth Anything 3: 어떤 시점에서도 시각적 공간 복원하기

Haotong Lin Sili Chen Junhao Liew Donny Y. Chen Zhenyu Li Guang Shi Jiashi Feng Bingyi Kang

Depth Anything 3: 어떤 시점에서도 시각적 공간 복원하기

초록

우리는 임의의 수의 시각 입력(또는 알려진 카메라 자세가 없는 경우도 포함)으로부터 공간적으로 일관된 기하 구조를 예측할 수 있는 모델인 Depth Anything 3(DA3)을 제안한다. 최소한의 모델링을 추구함에 있어 DA3는 두 가지 핵심 통찰을 도출한다. 첫째, 특별한 아키텍처 설계 없이도 단일 일반형 트랜스포머(예: 순수한 DINO 인코더)만으로도 충분한 백본으로 기능할 수 있으며, 둘째, 단일한 깊이-광선 예측 목표만으로도 복잡한 다중 작업 학습의 필요성을 제거할 수 있다. 본 연구에서 제안하는 교사-학생 학습 프레임워크를 통해 DA3는 Depth Anything 2(DA2)와 동등한 수준의 세부 정보 표현력과 일반화 성능을 달성하였다. 또한 카메라 자세 추정, 임의의 시점 기하 구조 추출, 시각적 렌더링을 아우르는 새로운 시각 기하 기준 평가 벤치마크를 구축하였다. 이 벤치마크에서 DA3는 모든 작업에서 새로운 최고 성능을 기록하였으며, 기존 최고 성능 모델인 VGGT보다 카메라 자세 정확도에서 평균 44.3%, 기하 정확도에서 평균 25.1% 우수한 성능을 보였다. 더불어 단안 깊이 추정에서도 DA2를 능가하는 성능을 나타냈다. 모든 모델은 공개된 학술 데이터셋에만 기반하여 학습되었다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
Depth Anything 3: 어떤 시점에서도 시각적 공간 복원하기 | 연구 논문 | HyperAI초신경