한 달 전

자연 동영상 시퀀스 예측을 위한 움직임과 콘텐츠 분해

Ruben Villegas; Jimei Yang; Seunghoon Hong; Xunyu Lin; Honglak Lee
자연 동영상 시퀀스 예측을 위한 움직임과 콘텐츠 분해
초록

우리는 자연 비디오 시퀀스에서 미래 프레임을 예측하기 위한 딥 뉴럴 네트워크를 제안합니다. 비디오에서 픽셀의 복잡한 변화를 효과적으로 처리하기 위해, 우리는 모션과 콘텐츠, 이 두 가지 주요 구성 요소를 분해하여 다루는 방법을 제안합니다. 우리의 모델은 이미지의 공간적 구조와 해당 시간적 동역학을 독립적으로 포착하는 픽셀 수준 예측을 위해 인코더-디코더 합성곱 신경망(Encoder-Decoder Convolutional Neural Network)과 합성곱 LSTM(Convolutional LSTM) 위에 구축되었습니다. 모션과 콘텐츠를 독립적으로 모델링함으로써, 다음 프레임을 예측하는 작업은 추출된 콘텐츠 특성을 식별된 모션 특성에 따라 다음 프레임의 콘텐츠로 변환하는 것으로 단순화됩니다. 우리의 모델은 여러 시간 단계에 걸쳐 엔드투엔드로 훈련될 수 있으며, 별도의 훈련 없이 자연스럽게 모션과 콘텐츠를 분리하여 학습합니다. 우리는 KTH, Weizmann 액션, 그리고 UCF-101 데이터셋을 사용하여 인간 활동 비디오에서 제안된 네트워크 아키텍처를 평가하였습니다. 최근 접근 방식들과 비교하여 최고 수준의 성능을 보여주었습니다. 우리 지식으로는, 이는 자연 비디오에서 픽셀 수준 미래 예측을 위한 모션과 콘텐츠 분리를 포함한 첫 번째 엔드투엔드로 훈련 가능한 네트워크 아키텍처입니다.