2달 전
단일 이미지를 통한 자기 지도 확산을 활용한 3D 사진 동영상 학습
Wang, Xiaodong ; Wu, Chenfei ; Yin, Shengming ; Ni, Minheng ; Wang, Jianfeng ; Li, Linjie ; Yang, Zhengyuan ; Yang, Fan ; Wang, Lijuan ; Liu, Zicheng ; Fang, Yuejian ; Duan, Nan

초록
3D 사진은 정적인 이미지를 매력적인 3D 시각 효과를 가진 동영상으로 변환합니다. 기존 접근 방식은 일반적으로 먼저 단일 시점 깊이 추정을 수행한 후, 다양한 시점에서의 후속 프레임으로 입력 프레임을 렌더링하고, 마지막으로 인페인팅 모델을 사용하여 누락되거나 가려진 영역을 채웁니다. 인페인팅 모델은 렌더링 품질에 중요한 역할을 하지만, 일반적으로 도메인 외 데이터로 훈련됩니다. 이러한 훈련과 추론 간의 차이를 줄이기 위해, 우리는 새로운 자기 감독 확산 모델을 인페인팅 모듈로 제안합니다. 단일 입력 이미지가 주어지면, 우리는 무작위 사이클 렌더링을 통해 마스킹된 가려진 이미지와 실제 이미지의 훈련 쌍을 자동으로 구성합니다. 구성된 훈련 샘플은 데이터 주석 없이도 테스트 인스턴스와 밀접하게 일치합니다. 마스킹된 이미지를 최대한 활용하기 위해, UNet에 쉽게 삽입할 수 있는 마스킹 강화 블록(Masked Enhanced Block, MEB)을 설계했습니다. 이 블록은 의미 조건을 강화하는 역할을 합니다. 실제 세계 애니메이션에 대한 새로운 과제로, 우리는 객체의 공간과 시간 범위를 확장하는 아웃-애니메이션(out-animation)을 제시합니다. 실제 데이터셋에서 수행된 광범위한 실험 결과는 우리의 방법이 기존 최신(SOTA) 방법들과 경쟁력 있는 성능을 달성함을 보여줍니다.