한 달 전

상호 억제 네트워크를 이용한 분리된 특성 기반 비디오 예측

Jungbeom Lee; Jangho Lee; Sungmin Lee; Sungroh Yoon
상호 억제 네트워크를 이용한 분리된 특성 기반 비디오 예측
초록

비디오 예측은 비디오가 고차원적인 공간 정보뿐만 아니라 복잡한 시간 정보도 포함하고 있기 때문에 어려운 문제로 여겨져 왔습니다. 비디오 예측은 최근 프레임에서 특징을 찾아 이를 사용하여 미래의 프레임에 대한 근사치를 생성함으로써 수행될 수 있습니다. 우리는 이 문제를 비디오에서 공간적 특징과 시간적 특징을 분리하는 방식으로 접근합니다. 우리는 적대적으로 훈련된 상호 억제 네트워크(MSnet, Mutual Suppression Network)를 소개하며, 이는 움직임 정보가 없는 공간적 특징과 공간 정보가 없는 움직임 특징을 생성합니다. MSnet은 인코더-디코더 기반 구조 내에서 움직임 안내 연결(motion-guided connection)을 사용하여 이전 프레임의 공간적 특징을 미래 프레임의 시점으로 변환합니다. 우리는 MSnet이 분리된 표현(disentangled representations)을 사용하여 비디오 예측에 어떻게 활용될 수 있는지 보여주며, 또한 실험을 통해 우리의 방법이 특징을 분리하는 데 얼마나 효과적인지를 평가하였습니다. MSnet은 간단한 인코더를 가지고 있음에도 불구하고 다른 최근 비디오 예측 방법들보다 더 좋은 결과를 얻었습니다.