16일 전

결함 인지형 마스킹 트랜스포머를 활용한 비디오 인페인팅

Yongsheng Yu, Heng Fan, Libo Zhang
결함 인지형 마스킹 트랜스포머를 활용한 비디오 인페인팅
초록

최근 영상 인페인팅 기법들은 광학 흐름과 같은 명시적 가이던스를 활용하여 프레임 간 픽셀을 전파함으로써 놀라운 진전을 이루었다. 그러나 마스크된 영상의 프레임 간 반복 정보가 제공되지 않는 경우가 있으며, 이로 인해 성능에 한계가 발생한다. 이러한 상황에서는 다른 프레임에서 픽셀을 빌리는 대신, 모델의 초점이 역 문제 해결에 맞춰진다. 본 논문에서는 이러한 불충분한 상황을 인지하는 이중 모달리티 호환 인페인팅 프레임워크인 Deficiency-aware Masked Transformer(DMT)를 제안한다. DMT는 세 가지 주요 장점을 제공한다. 첫째, 영상 인페인팅 모델인 DMT_img를 사전 훈련하여 DMT_vid 모델의 사전 지식으로 활용함으로써, 불충분한 경우의 환각(홀로그래피) 성능을 향상시킨다. 둘째, 자기 주의(self-attention) 모듈은 시공간 토큰을 선택적으로 통합함으로써 추론 속도를 가속화하고 노이즈 신호를 제거한다. 셋째, 간단하면서도 효과적인 수용 영역 컨텍스추얼라이저(Receptive Field Contextualizer)를 DMT에 통합하여 성능을 추가로 향상시켰다. YouTube-VOS 및 DAVIS 데이터셋에서 실시한 광범위한 실험 결과, DMT_vid가 기존 솔루션들을 크게 능가함을 입증하였다. 코드 및 영상 시연은 github.com/yeates/DMT에서 확인할 수 있다.

결함 인지형 마스킹 트랜스포머를 활용한 비디오 인페인팅 | 최신 연구 논문 | HyperAI초신경