9 天前

高效且信息保持的未来帧预测及其拓展

{Yichao Lu, Wei Yu, Sanja Fidler, Steve Easterbrook}
高效且信息保持的未来帧预测及其拓展
摘要

采用保持分辨率的模块是视频预测中最大化信息保留的常见方法,然而其较高的内存消耗严重限制了其应用场景。为此,我们提出CrevNet——一种条件可逆网络(Conditionally Reversible Network),该网络利用可逆架构构建了一个双射的双向自编码器及其互补的循环预测器。所提模型在特征提取过程中具有理论上保证的无信息丢失特性,同时显著降低内存占用并提升计算效率。由于模型轻量化设计,我们能够无须担心内存瓶颈地引入3D卷积操作,从而增强模型捕捉短期与长期时序依赖关系的能力。在Moving MNIST、Traffic4cast和KITTI等数据集上,我们的方法取得了当前最优的性能表现。此外,我们进一步验证了该自监督学习方法的迁移能力,通过利用其学习到的特征在KITTI数据集上进行目标检测,取得了具有竞争力的结果。这些成果表明,CrevNet具有作为生成式预训练策略的潜力,可有效指导下游任务的优化。