8일 전

고해상도 및 시간적 일관성 있는 비디오 예측을 위한 공간-시간 다중 주파수 분석 탐색

Beibei Jin, Yu Hu, Qiankun Tang, Jingyu Niu, Zhiping Shi, Yinhe Han, Xiaowei Li
고해상도 및 시간적 일관성 있는 비디오 예측을 위한 공간-시간 다중 주파수 분석 탐색
초록

비디오 예측은 과거 프레임을 기반으로 미래 프레임을 추론하는 픽셀 단위 밀도 예측 과제이다. 현재의 예측 모델은 여전히 외관 세부 정보의 누락과 운동 왜곡이라는 두 가지 주요 문제를 겪고 있으며, 이는 이미지 왜곡과 시간적 일관성 부족을 초래한다. 본 논문에서는 이러한 문제를 해결하기 위해 다중 주파수 분석 탐색의 필요성을 제시한다. 인간 시각 시스템(HVS)의 주파수 대역 분해 특성에 영감을 받아, 공간적 및 시간적 정보를 통합적으로 처리할 수 있는 다수준 웨이블릿 분석 기반의 비디오 예측 네트워크를 제안한다. 구체적으로, 다수준 공간적 이산 웨이블릿 변환은 각 비디오 프레임을 다양한 주파수를 가진 이방성 하위 대역으로 분해하여 구조적 정보를 풍부하게 하고 미세한 세부 정보를 유지하는 데 기여한다. 한편, 시간 축을 기준으로 작동하는 다수준 시간적 이산 웨이블릿 변환은 프레임 시퀀스를 서로 다른 주파수 대역의 하위 대역 그룹으로 분해함으로써 고정된 프레임 레이트 하에서도 다중 주파수 운동을 정확히 포착할 수 있다. 다양한 데이터셋에서 실시한 광범위한 실험을 통해 제안한 모델이 최신 기술 대비 정밀도와 시간적 일관성에서 두드러진 개선을 보였음을 입증하였다.

고해상도 및 시간적 일관성 있는 비디오 예측을 위한 공간-시간 다중 주파수 분석 탐색 | 최신 연구 논문 | HyperAI초신경