
초록
최근 영상 인페인팅 기법들은 광학 흐름과 같은 명시적 가이던스를 활용하여 프레임 간 픽셀을 전파함으로써 놀라운 진전을 이루었다. 그러나 마스크된 영상의 프레임 간 반복 정보가 제공되지 않는 경우가 있으며, 이로 인해 성능에 한계가 발생한다. 이러한 상황에서는 다른 프레임에서 픽셀을 빌리는 대신, 모델의 초점이 역 문제 해결에 맞춰진다. 본 논문에서는 이러한 불충분한 상황을 인지하는 이중 모달리티 호환 인페인팅 프레임워크인 Deficiency-aware Masked Transformer(DMT)를 제안한다. DMT는 세 가지 주요 장점을 제공한다. 첫째, 영상 인페인팅 모델인 DMT_img를 사전 훈련하여 DMT_vid 모델의 사전 지식으로 활용함으로써, 불충분한 경우의 환각(홀로그래피) 성능을 향상시킨다. 둘째, 자기 주의(self-attention) 모듈은 시공간 토큰을 선택적으로 통합함으로써 추론 속도를 가속화하고 노이즈 신호를 제거한다. 셋째, 간단하면서도 효과적인 수용 영역 컨텍스추얼라이저(Receptive Field Contextualizer)를 DMT에 통합하여 성능을 추가로 향상시켰다. YouTube-VOS 및 DAVIS 데이터셋에서 실시한 광범위한 실험 결과, DMT_vid가 기존 솔루션들을 크게 능가함을 입증하였다. 코드 및 영상 시연은 github.com/yeates/DMT에서 확인할 수 있다.