9日前

動的マルチスケールボクセルフロー網 for 動画予測

Xiaotao Hu, Zhewei Huang, Ailin Huang, Jun Xu, Shuchang Zhou
動的マルチスケールボクセルフロー網 for 動画予測
要約

動画予測の性能は、先進的な深層ニューラルネットワークの発展により著しく向上している。しかし、現在の大多数の手法はモデルサイズが大きく、望ましい性能を発揮するためには、セマンティックマップや深度マップなどの追加入力が必要であるという課題を抱えている。効率性を考慮して、本論文では、RGB画像のみを入力として用いることで、従来の手法よりも低い計算コストで優れた動画予測性能を達成するための、動的マルチスケールボクセルフローネットワーク(Dynamic Multi-scale Voxel Flow Network: DMVFN)を提案する。DMVFNの核となるのは、動画フレームの運動スケールを効果的に捉えることができる微分可能ルーティングモジュールである。学習が完了した後、推論段階においてDMVFNは入力に応じて適応的なサブネットワークを選択する。複数のベンチマークにおける実験結果から、DMVFNはDeep Voxel Flowよりも1桁以上高速であり、生成画像の品質において従来の最良の反復ベース手法OPTを上回ることが確認された。本研究のコードおよびデモは、https://huxiaotaostasy.github.io/DMVFN/ にて公開されている。

動的マルチスケールボクセルフロー網 for 動画予測 | 最新論文 | HyperAI超神経