8일 전
고해상도 및 시간적 일관성 있는 비디오 예측을 위한 공간-시간 다중 주파수 분석 탐색
Beibei Jin, Yu Hu, Qiankun Tang, Jingyu Niu, Zhiping Shi, Yinhe Han, Xiaowei Li

초록
비디오 예측은 과거 프레임을 기반으로 미래 프레임을 추론하는 픽셀 단위 밀도 예측 과제이다. 현재의 예측 모델은 여전히 외관 세부 정보의 누락과 운동 왜곡이라는 두 가지 주요 문제를 겪고 있으며, 이는 이미지 왜곡과 시간적 일관성 부족을 초래한다. 본 논문에서는 이러한 문제를 해결하기 위해 다중 주파수 분석 탐색의 필요성을 제시한다. 인간 시각 시스템(HVS)의 주파수 대역 분해 특성에 영감을 받아, 공간적 및 시간적 정보를 통합적으로 처리할 수 있는 다수준 웨이블릿 분석 기반의 비디오 예측 네트워크를 제안한다. 구체적으로, 다수준 공간적 이산 웨이블릿 변환은 각 비디오 프레임을 다양한 주파수를 가진 이방성 하위 대역으로 분해하여 구조적 정보를 풍부하게 하고 미세한 세부 정보를 유지하는 데 기여한다. 한편, 시간 축을 기준으로 작동하는 다수준 시간적 이산 웨이블릿 변환은 프레임 시퀀스를 서로 다른 주파수 대역의 하위 대역 그룹으로 분해함으로써 고정된 프레임 레이트 하에서도 다중 주파수 운동을 정확히 포착할 수 있다. 다양한 데이터셋에서 실시한 광범위한 실험을 통해 제안한 모델이 최신 기술 대비 정밀도와 시간적 일관성에서 두드러진 개선을 보였음을 입증하였다.