9일 전

비디오 예측을 위한 동적 다중 스케일 복셀 흐름 네트워크

Xiaotao Hu, Zhewei Huang, Ailin Huang, Jun Xu, Shuchang Zhou
비디오 예측을 위한 동적 다중 스케일 복셀 흐름 네트워크
초록

비디오 예측 성능은 고도로 발전한 딥 신경망의 도입으로 크게 향상되었다. 그러나 현재 대부분의 기법들은 큰 모델 크기 문제를 겪으며, 우수한 성능을 내기 위해 추가 입력(예: 세분적/심도 맵)이 필요하다는 한계를 가지고 있다. 효율성 측면을 고려하여, 본 논문에서는 기존 방법보다 낮은 계산 비용으로 RGB 이미지 하나만을 입력으로 사용하여 더 뛰어난 비디오 예측 성능을 달성하기 위해 동적 다중 스케일 볼륨 플로우 네트워크(DMVFN)를 제안한다. DMVFN의 핵심은 비디오 프레임의 운동 스케일을 효과적으로 인식할 수 있는 미분 가능한 라우팅 모듈이다. 학습이 완료된 후, DMVFN은 추론 단계에서 입력에 따라 적응형 하위 네트워크를 자동으로 선택한다. 다양한 벤치마크에서의 실험 결과, DMVFN은 Deep Voxel Flow보다 약 10배 빠르며, 생성된 이미지 품질 측면에서 기존의 반복 기반 최첨단 기법인 OPT를 능가함을 확인하였다. 코드와 데모는 다음 링크에서 확인할 수 있다: https://huxiaotaostasy.github.io/DMVFN/.

비디오 예측을 위한 동적 다중 스케일 복셀 흐름 네트워크 | 최신 연구 논문 | HyperAI초신경