HyperAIHyperAI

Command Palette

Search for a command to run...

用于视频预测的动态多尺度体素流网络

Xiaotao Hu Zhewei Huang Ailin Huang Jun Xu Shuchang Zhou

摘要

视频预测性能已因先进的深度神经网络而得到显著提升。然而,当前大多数方法仍存在模型规模庞大、需依赖额外输入(如语义图或深度图)才能实现优异性能的问题。为兼顾效率,本文提出一种动态多尺度体素流网络(Dynamic Multi-scale Voxel Flow Network, DMVFN),仅使用RGB图像即可在更低的计算成本下实现优于以往方法的视频预测性能。DMVFN的核心是一个可微分的路由模块,能够有效感知视频帧中不同尺度的运动信息。模型训练完成后,在推理阶段,DMVFN可根据输入内容自适应地选择相应的子网络。在多个基准数据集上的实验结果表明,与Deep Voxel Flow相比,本方法的推理速度提升了一个数量级;同时,在生成图像质量方面,DMVFN超越了当前基于迭代优化的先进方法OPT。相关代码与演示视频已公开,详见:https://huxiaotaostasy.github.io/DMVFN/


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供