2달 전

학습 가능한 게이티드 시계열 이동 모듈을 이용한 딥 비디오 인페인팅

Ya-Liang Chang; Zhe Yu Liu; Kuan-Ying Lee; Winston Hsu
학습 가능한 게이티드 시계열 이동 모듈을 이용한 딥 비디오 인페인팅
초록

비디오 인페인팅 문제에서 시간 정보를 효율적으로 활용하여 일관된 방식으로 비디오를 복원하는 것이 주요 이슈입니다. 기존의 2D CNN은 이미지 인페인팅에서 좋은 성능을 보였지만, 비디오에 적용할 때 프레임이 깜빡이는 등의 시간적 불일관성을 초래하는 경우가 많습니다(참조: https://www.youtube.com/watch?v=87Vh1HDBjD0&list=PLPoVtv-xp_dL5uckIzz1PKwNjg1yI0I94&index=1). 3D CNN은 시간 정보를 포착할 수 있지만, 계산량이 많고 훈련하기 어려운 단점이 있습니다. 본 논문에서는 이러한 문제를 해결하기 위해 추가적인 3D 컨볼루션 파라미터 없이 임의의 비디오 마스크를 효과적으로 처리할 수 있는 새로운 구성 요소인 학습 가능한 게이티드 시간 시프트 모듈(Learnable Gated Temporal Shift Module, LGTSM)을 제안합니다. LGTSM은 2D 컨볼루션이 이웃 프레임을 더 효율적으로 활용할 수 있도록 설계되어 비디오 인페인팅에 매우 중요합니다. 구체적으로, 각 레이어에서 LGTSM은 일부 채널을 시간적 이웃으로 이동시키는 방법을 학습하여 2D 컨볼루션이 시간 정보를 처리하는 능력을 강화합니다. 동시에, 게이티드 컨볼루션이 레이어에 적용되어 기존 컨볼루션에 해로운 마스크 영역을 식별합니다. FaceForensics 및 Free-form Video Inpainting (FVI) 데이터셋에서 우리의 모델은 단순히 33%의 파라미터와 추론 시간으로 최상의 결과를 달성하였습니다.

학습 가능한 게이티드 시계열 이동 모듈을 이용한 딥 비디오 인페인팅 | 최신 연구 논문 | HyperAI초신경