7 天前

FitVid:像素级视频预测中的过拟合

Mohammad Babaeizadeh, Mohammad Taghi Saffar, Suraj Nair, Sergey Levine, Chelsea Finn, Dumitru Erhan
FitVid:像素级视频预测中的过拟合
摘要

一个能够预测未来事件的智能体,可通过规划完成多种任务而无需额外训练。此外,该智能体能够内在地表征现实世界中复杂的动态特性,因而可获得对多种视觉感知任务具有实用价值的表征。因此,基于已观察到的过去帧以及潜在的未来动作来预测视频的未来帧,成为一个极具研究价值但至今仍极具挑战性的任务,尽管近年来已有诸多进展。现有的视频预测模型在简单的窄域基准测试上表现令人鼓舞,但在包含更复杂动态或更广泛分布的真实数据集上,其预测质量仍显著偏低。越来越多的证据表明,模型在训练数据上的欠拟合是导致预测质量低下的主要原因之一。本文认为,当前视频模型中参数利用效率低下是造成欠拟合的核心原因。为此,我们提出一种新型网络架构——FitVid,该架构在保持与当前最先进模型相当参数量的前提下,能够在常见基准上实现严重的过拟合。我们分析了过拟合带来的后果,揭示了其可能产生出人意料的结果,例如通过重复训练数据生成高质量输出,并说明如何借助现有的图像增强技术有效缓解这一问题。实验结果表明,FitVid在四个不同的视频预测基准上,于四项不同评估指标下均显著优于当前最先进模型。

FitVid:像素级视频预测中的过拟合 | 最新论文 | HyperAI超神经