9일 전
비디오 예측을 위한 동적 다중 스케일 복셀 흐름 네트워크
Xiaotao Hu, Zhewei Huang, Ailin Huang, Jun Xu, Shuchang Zhou

초록
비디오 예측 성능은 고도로 발전한 딥 신경망의 도입으로 크게 향상되었다. 그러나 현재 대부분의 기법들은 큰 모델 크기 문제를 겪으며, 우수한 성능을 내기 위해 추가 입력(예: 세분적/심도 맵)이 필요하다는 한계를 가지고 있다. 효율성 측면을 고려하여, 본 논문에서는 기존 방법보다 낮은 계산 비용으로 RGB 이미지 하나만을 입력으로 사용하여 더 뛰어난 비디오 예측 성능을 달성하기 위해 동적 다중 스케일 볼륨 플로우 네트워크(DMVFN)를 제안한다. DMVFN의 핵심은 비디오 프레임의 운동 스케일을 효과적으로 인식할 수 있는 미분 가능한 라우팅 모듈이다. 학습이 완료된 후, DMVFN은 추론 단계에서 입력에 따라 적응형 하위 네트워크를 자동으로 선택한다. 다양한 벤치마크에서의 실험 결과, DMVFN은 Deep Voxel Flow보다 약 10배 빠르며, 생성된 이미지 품질 측면에서 기존의 반복 기반 최첨단 기법인 OPT를 능가함을 확인하였다. 코드와 데모는 다음 링크에서 확인할 수 있다: https://huxiaotaostasy.github.io/DMVFN/.