
摘要
一种能够泛化至多样化场景的视频预测模型,将使智能体(如机器人)通过基于该模型的规划来执行多种任务。然而,尽管现有视频预测模型在小型数据集上已取得令人鼓舞的结果,但在大规模、多样化数据集上训练时,往往面临严重的欠拟合问题。为应对这一欠拟合挑战,我们首先观察到,训练更大规模的视频预测模型通常受限于GPU或TPU的内存瓶颈。与此同时,深层分层隐变量模型可通过捕捉未来观测的多层次随机性,生成更高质量的预测结果,但其端到端优化过程极为困难。我们的关键洞察是:对分层自编码器采用贪婪且模块化的优化策略,能够同时缓解大规模视频预测中的内存限制与优化难题。为此,我们提出贪婪分层变分自编码器(Greedy Hierarchical Variational Autoencoders, GHVAEs),一种通过贪婪地逐层训练分层自编码器的每一层,实现高保真视频预测的方法。与当前最先进的模型相比,GHVAEs在四个视频数据集上实现了17%至55%的预测性能提升,在真实机器人任务中成功率提高35%至40%,且仅需通过简单增加模块数量即可实现性能的单调提升。