
摘要
视频预测性能已因先进的深度神经网络而得到显著提升。然而,当前大多数方法仍存在模型规模庞大、需依赖额外输入(如语义图或深度图)才能实现优异性能的问题。为兼顾效率,本文提出一种动态多尺度体素流网络(Dynamic Multi-scale Voxel Flow Network, DMVFN),仅使用RGB图像即可在更低的计算成本下实现优于以往方法的视频预测性能。DMVFN的核心是一个可微分的路由模块,能够有效感知视频帧中不同尺度的运动信息。模型训练完成后,在推理阶段,DMVFN可根据输入内容自适应地选择相应的子网络。在多个基准数据集上的实验结果表明,与Deep Voxel Flow相比,本方法的推理速度提升了一个数量级;同时,在生成图像质量方面,DMVFN超越了当前基于迭代优化的先进方法OPT。相关代码与演示视频已公开,详见:https://huxiaotaostasy.github.io/DMVFN/。