Command Palette

Search for a command to run...

2달 전

VoxHammer: 본질적인 3차원 공간에서의 훈련 없이 정밀하고 일관성 있는 3차원 편집

Lin Li Zehuan Huang Haoran Feng Gengxiong Zhuang Rui Chen Chunchao Guo Lu Sheng

VoxHammer: 본질적인 3차원 공간에서의 훈련 없이 정밀하고 일관성 있는 3차원 편집

초록

지정된 영역에 대한 3D 로컬 편집은 게임 산업과 로봇 상호작용 분야에서 매우 중요하다. 최근의 방법들은 일반적으로 렌더링된 다중 시점 이미지를 편집한 후 3D 모델을 재구성하는 방식을 채택하지만, 편집되지 않은 영역을 정확히 보존하고 전체적인 일관성을 유지하는 데 어려움을 겪는다. 구조화된 3D 생성 모델에 영감을 받아, 우리는 3D 잠재 공간에서 정밀하고 일관성 있는 편집을 수행할 수 있는 새로운 훈련 불필요한 접근법인 VoxHammer를 제안한다. 주어진 3D 모델에 대해 VoxHammer는 먼저 그 역전환 경로를 예측하고, 각 타임스텝에서 역전환 잠재 표현(inverted latents)과 키-밸류 토큰(key-value tokens)을 추출한다. 이후 노이즈 제거 및 편집 단계에서는 보존된 영역의 노이즈 제거 특징을 해당 역전환 잠재 표현과 캐시된 키-밸류 토큰으로 대체한다. 이러한 맥락 정보를 유지함으로써, 본 방법은 보존된 영역의 일관된 재구성과 편집된 부분의 자연스러운 통합을 보장한다. 보존된 영역의 일관성 평가를 위해 우리는 수백 개의 샘플로 구성된 인간 주석(annotation) 데이터셋인 Edit3D-Bench를 구축하였으며, 각 샘플은 정밀하게 레이블링된 3D 편집 영역을 포함한다. 실험 결과, VoxHammer는 보존된 영역의 3D 일관성과 전반적인 품질 측면에서 기존 방법들을 크게 능가함을 확인하였다. 본 연구 방법은 고품질의 편집된 쌍 데이터를 합성할 잠재력을 지니며, 이는 컨텍스트 기반 3D 생성을 위한 데이터 기반을 마련할 수 있다. 자세한 내용은 프로젝트 페이지(https://huanngzh.github.io/VoxHammer-Page/)에서 확인할 수 있다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp