3일 전

Tinker: 희소 입력으로부터 3D 다중 시점 일관성 있는 편집을 위한 확산의 선물, 장면별 최적화 없이

Canyu Zhao, Xiaoman Li, Tianjian Feng, Zhiyue Zhao, Hao Chen, Chunhua Shen
Tinker: 희소 입력으로부터 3D 다중 시점 일관성 있는 편집을 위한 확산의 선물, 장면별 최적화 없이
초록

Tinker는 한 번 또는 몇 번의 이미지 입력만으로도 per-scene(장면별) 미세조정 없이 고정밀 3D 편집이 가능한 유연한 프레임워크를 소개한다. 기존 기법들이 다중 시점 일관성을 보장하거나 수십 개의 일관된 편집 입력 시점을 생성하기 위해 장면별로 광범위한 최적화를 요구하는 반면, Tinker는 단 하나 또는 두 개의 이미지로부터도 강력하고 다중 시점 일관성을 갖춘 편집을 가능하게 한다. 이 능력은 사전 훈련된 확산 모델을 재활용함으로써 달성되며, 이는 모델이 잠재적 3D 인식 능력을 갖게 한다. 본 분야의 연구를 촉진하기 위해 우리는 다양한 장면과 스타일을 아우르는 대규모 다중 시점 편집 데이터셋과 데이터 처리 파이프라인을 처음으로 구축하였다. 이 데이터셋을 기반으로, 장면별 훈련 없이 다중 시점 일관성 있는 편집 이미지를 생성할 수 있는 프레임워크를 개발하였으며, 이는 두 가지 혁신적인 구성 요소로 구성된다. (1) 참조 기반 다중 시점 편집기: 모든 시점에서 일관성을 유지하면서 정확한 참조 기반 편집을 가능하게 한다. (2) 임의 시점에서 영상으로의 합성기: 영상 확산 모델에서 얻은 공간-시간 사전 지식을 활용하여, 희소한 입력에서도 고품질의 장면 완성 및 새로운 시점 생성을 수행한다. 광범위한 실험을 통해 Tinker는 일반화 가능한 3D 콘텐츠 제작의 장벽을 크게 낮추었으며, 편집, 새로운 시점 생성, 렌더링 향상 등 다양한 작업에서 최신 기술 수준의 성능을 달성하였다. 우리는 Tinker가 진정으로 확장 가능한, 제로샷(Zero-shot) 3D 편집을 향한 중요한 한 걸음이라고 믿는다.프로젝트 웹페이지: https://aim-uofa.github.io/Tinker