한 달 전

미래 비디오 예측을 위한 폴드된 순환 신경망

Marc Oliu; Javier Selva; Sergio Escalera
미래 비디오 예측을 위한 폴드된 순환 신경망
초록

미래 비디오 예측은 최근 많은 주목을 받은 Computer Vision 분야의 불완전한 문제입니다. 이 문제의 주요 도전 과제는 비디오 콘텐츠의 높은 변동성, 시간에 따른 오류 전파, 그리고 미래 프레임의 비특이성입니다: 과거 프레임 시퀀스가 주어졌을 때 가능한 미래의 연속적인 분포가 존재합니다. 본 연구에서는 입력과 출력 간의 두 가지 매핑을 수행하는 bijective Gated Recurrent Units를 소개합니다. 이를 통해 인코더와 디코더 사이에서 상태 공유가 이루어지는 순환 오토인코더를 구현할 수 있으며, 시퀀스 표현을 계층화하고 용량 문제를 방지하는 데 도움을 줍니다. 우리는 이 구조를 사용하여 입력 인코딩에는 인코더만, 예측에는 디코더만 적용할 수 있음을 보여줍니다. 이로 인해 계산 비용이 감소하고 시퀀스 프레임을 생성할 때 예측값을 다시 인코딩할 필요가 없어져 오류 전파를 완화할 수 있습니다. 또한 이미 학습된 모델에서 레이어를 제거할 수 있어 각 레이어가 수행하는 역할에 대한 통찰력을 제공하며 모델의 설명성을 높일 수 있습니다. 우리는 세 개의 비디오 데이터셋에서 접근법을 평가하였으며, MMNIST와 UCF101에서는 최신 기술보다 우수한 예측 결과를 얻었고, KTH에서는 최고 점수를 받은 접근법보다 2배에서 3배 적은 메모리 사용량과 계산 비용으로 경쟁력 있는 결과를 얻었습니다.