
초록
고품질 비디오 인페인팅은 비디오 프레임의 결손 영역을 완성하는 유망하면서도 도전적인 작업이다. 최신 접근 방식들은 참조 프레임에서 결손 내용을 검색하여 프레임을 완성하고, 이를 통해 전체 비디오를 프레임별로 완성한다. 그러나 이러한 접근 방식들은 공간적 및 시간적 차원에서 일관되지 않은 주의 결과를 초래할 수 있으며, 이는 종종 비디오에서 흐림과 시간적 아티팩트를 발생시킨다. 본 논문에서는 비디오 인페인팅을 위해 공동 공간-시간 트랜스포머 네트워크(STTN)를 학습하는 방법을 제안한다. 구체적으로, 자기 주의(self-attention) 메커니즘을 사용하여 모든 입력 프레임의 결손 영역을 동시에 채우고, 공간-시간 적대적 손실(spatial-temporal adversarial loss)을 통해 STTN을 최적화하는 방법을 제안한다. 제안된 모델의 우수성을 입증하기 위해, 표준 정지 마스크와 더 현실적인 이동 객체 마스크를 사용하여 양적 및 질적 평가를 수행하였다. 데모 비디오는 https://github.com/researchmm/STTN에서 확인할 수 있다.