교차 모달 주의력 전달을 통한 일치된 신규 시점 이미지 및 기하 합성

우리는 전환(워핑) 및 보정(인페인팅) 방법론을 통해 일치된 새로운 시점의 이미지와 기하학적 구조를 생성하는 확산 기반 프레임워크를 소개합니다. 이전 방법들과 달리 밀도 높은 포즈 이미지나 특정 도메인의 시점에 제한되는 포즈 임베딩 생성 모델이 필요하지 않으며, 우리의 방법은 오프더셀프 기하학 예측기를 활용하여 참조 이미지에서 부분적인 기하학적 구조를 예측하고, 새로운 시점 합성을 이미지와 기하학 모두에 대한 보정 작업으로 정식화합니다. 생성된 이미지와 기하학적 구조 간의 정확한 일치를 보장하기 위해, 우리는 이미지 확산 분기에서 얻은 주의 맵을 훈련과 추론 과정에서 병렬로 작동하는 기하학 확산 분기에 주입하는 크로스-모달 주의 증류(cross-modal attention distillation)를 제안합니다. 이러한 다중 작업 접근 방식은 상호 보완적인 효과를 달성하며, 기하학적으로 견고한 이미지 합성뿐만 아니라 명확하게 정의된 기하학적 구조 예측을 촉진합니다. 또한, 우리는 깊이와 법선 정보를 통합하고 점군과 잘못 예측된 기하학적 구조가 생성 과정에 영향을 미치는 것을 방지하기 위한 근접성 기반 메시 조건(proximity-based mesh conditioning)을 도입하였습니다. 경험적으로, 우리의 방법은 다양한 미확인 장면에서 고충실도의 외삽 시점 합성을 이미지와 기하학 모두에서 달성하며, 보간 설정 하에서는 경쟁력 있는 재구축 품질을 제공하며, 포괄적인 3D 완성을 위해 기하학적으로 일치하는 색상 점군을 생성합니다. 프로젝트 페이지는 https://cvlab-kaist.github.io/MoAI 에서 확인할 수 있습니다.