9일 전

MAU: 비디오 예측 및 그 이상을 위한 운동 인지 유닛

{Wen Gao, Xiang Xinguang, Yan Ye, Siwei Ma, Shanshe Wang, Xinfeng Zhang, Zheng Chang}
MAU: 비디오 예측 및 그 이상을 위한 운동 인지 유닛
초록

프레임 간 운동 정보를 정확히 예측하는 것은 영상 예측 작업에서 핵심적인 역할을 한다. 본 논문에서는 예측 단위의 시계적 수용 영역(temporal receptive field)을 확장함으로써 신뢰할 수 있는 프레임 간 운동 정보를 포착하기 위한 운동 인지 유닛(Motion-Aware Unit, MAU)을 제안한다. MAU는 주의 모듈(attention module)과 융합 모듈(fusion module)의 두 가지 모듈로 구성된다. 주의 모듈은 현재 공간 상태와 과거 공간 상태 간의 상관관계를 기반으로 주의 맵(attention map)을 학습하는 것을 목표로 한다. 학습된 주의 맵을 바탕으로 과거 시계적 상태가 증강된 운동 정보(Augmented Motion Information, AMI)로 집계된다. 이를 통해 예측 단위는 더 넓은 수용 영역에서 보다 풍부한 시계적 동역학을 인지할 수 있게 된다. 이후 융합 모듈은 증강된 운동 정보(AMI)와 현재의 외형 정보(현재 공간 상태)를 추가로 융합하여 최종 예측 프레임을 생성한다. MAU의 계산 부담은 상대적으로 낮으며, 제안된 유닛은 다른 예측 모델에 쉽게 적용 가능하다. 또한, 예측 결과의 시각적 세부 정보를 유지하는 데 도움을 주기 위해 인코더와 디코더에 정보 회상 기법(information recalling scheme)을 도입하였다. 제안된 MAU는 영상 예측 및 조기 행동 인식(task) 두 가지에서 평가되었으며, 실험 결과, 두 작업 모두에서 기존 최고 성능(SOTA) 방법들을 초월하는 성능을 보였다.