15일 전

MIDI: 단일 이미지에서 3D 장면 생성을 위한 다중 인스턴스 확산

{Lu Sheng, Yan-Pei Cao, Xihui Liu, Ding Liang, Zi-Xin Zou, Yangguang Li, Yunhan Yang, Xingqiao An, Yuan-Chen Guo, Zehuan Huang}
MIDI: 단일 이미지에서 3D 장면 생성을 위한 다중 인스턴스 확산
초록

이 논문은 단일 이미지로부터 구성적 3D 장면을 생성하는 새로운 패러다임인 MIDI를 제안한다. 기존의 재구성 또는 검색 기반 기법에 의존하는 방법들 또는 최근의 다단계 객체별 생성 방식과 달리, MIDI는 사전 훈련된 이미지-3D 객체 생성 모델을 다중 인스턴스 확산 모델로 확장함으로써, 정확한 공간 관계와 높은 일반화 능력을 갖춘 다수의 3D 인스턴스를 동시에 생성할 수 있게 한다. MIDI의 핵심은 생성 과정 내에서 복잡한 다단계 절차 없이도 객체 간 상호작용과 공간 일관성을 효과적으로 포착할 수 있는 새로운 다중 인스턴스 어텐션 메커니즘을 도입한 점이다. 본 방법은 부분적인 객체 이미지와 전역 장면 컨텍스트를 입력으로 사용하여, 3D 생성 과정 중에 객체 완성(filling-in)을 직접 모델링한다. 훈련 과정에서는 제한된 수의 장면 수준 데이터를 활용하여 3D 인스턴스 간의 상호작용을 효과적으로 감독하면서, 단일 객체 데이터를 정규화(regularization)에 포함함으로써 사전 훈련된 일반화 능력을 유지한다. MIDI는 합성 데이터, 실세계 장면 데이터, 텍스트-이미지 확산 모델에 의해 생성된 스타일화된 장면 이미지 등에 대한 평가를 통해 이미지-장면 생성 분야에서 최신 기술 수준의 성능을 입증하였다.

MIDI: 단일 이미지에서 3D 장면 생성을 위한 다중 인스턴스 확산 | 최신 연구 논문 | HyperAI초신경