9일 전

차단된 비디오 예측을 위한 빠른 푸리에 인셉션 네트워크

Ping Li, Chenhan Zhang, Xianghua Xu
차단된 비디오 예측을 위한 빠른 푸리에 인셉션 네트워크
초록

비디오 예측은 과거 프레임을 활용하여 미래 프레임을 생성하는 픽셀 수준의 작업이다. 비디오 내에는 물체의 겹침이나 장면의 가림 등 지속적인 복잡한 운동이 자주 존재하며, 이러한 현상은 이 작업에 큰 도전 과제를 제기한다. 기존의 연구들은 either 장기적인 시간적 동역학을 효과적으로 포착하지 못하거나, 가림 마스크를 적절히 처리하지 못하는 한계를 가지고 있다. 이러한 문제를 해결하기 위해, 우리는 비디오 예측을 위한 완전 컨볼루션형 빠른 푸리에 인셉션 네트워크(Fast Fourier Inception Networks), 즉 \textit{FFINet}을 제안한다. 이 모델은 두 가지 주요 구성 요소로 구성되며, 즉 가림 복원기(occlusion inpainter)와 시공간 번역기(spatiotemporal translator)이다. 가림 복원기는 빠른 푸리에 컨볼루션을 활용하여 수용 영역을 확장함으로써, 복잡한 기하 구조를 가진 누락 영역(가림 영역)을 효과적으로 보완한다. 반면, 시공간 번역기는 스택형 푸리에 변환 인셉션 모듈을 사용하여 그룹 컨볼루션을 통해 시간적 진화를 학습하고, 채널별 푸리에 컨볼루션을 통해 공간적 이동을 모델링함으로써 국소적이고 전역적인 시공간 특징을 동시에 포착한다. 이러한 설계는 더 현실적이고 고해상도의 미래 프레임 생성을 촉진한다. 모델 최적화를 위해 복원 손실(recovery loss)을 목적 함수에 도입하여, 정답 프레임과 복원된 프레임 사이의 평균 제곱 오차를 최소화한다. Moving MNIST, TaxiBJ, Human3.6M, Caltech Pedestrian, KTH 등 다섯 가지 벤치마크에서 수행된 정량적 및 정성적 실험 결과는 제안한 방법의 우수성을 입증한다. 본 연구의 코드는 GitHub에서 공개되어 있다.

차단된 비디오 예측을 위한 빠른 푸리에 인셉션 네트워크 | 최신 연구 논문 | HyperAI초신경