6 个月前

计算机视觉

Pauline Luc Aidan Clark Sander Dieleman Diego de Las Casas Yotam Doron Albin Cassirer Karen Simonyan

摘要

近年来，对抗性生成建模领域的最新突破使得模型能够生成高质量的视频样本，即使在大规模、复杂的现实世界视频数据集上亦可实现。在本研究中，我们聚焦于视频预测任务：给定一段从视频中提取的帧序列，目标是生成一个合理且连贯的未来帧序列。首先，我们通过系统性的实验研究对判别器结构进行分解，并提出一种新型网络架构，该架构在收敛速度和性能表现上均优于以往方法，显著提升了当前技术水平。随后，我们深入分析生成器中的循环单元结构，并提出一种新颖的循环单元设计：该单元根据预测的运动特征对历史隐藏状态进行变换，并进一步优化以有效处理遮挡、场景变化及其他复杂动态行为。实验结果表明，该循环单元在各项指标上均持续优于先前的设计。最终，我们的模型在大规模Kinetics-600数据集上实现了显著的性能跃升，将测试集的Fréchet视频距离（Fréchet Video Distance）从69.2降低至25.7，标志着视频预测领域的新里程碑。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

Pauline Luc Aidan Clark Sander Dieleman Diego de Las Casas Yotam Doron Albin Cassirer Karen Simonyan

摘要

近年来，对抗性生成建模领域的最新突破使得模型能够生成高质量的视频样本，即使在大规模、复杂的现实世界视频数据集上亦可实现。在本研究中，我们聚焦于视频预测任务：给定一段从视频中提取的帧序列，目标是生成一个合理且连贯的未来帧序列。首先，我们通过系统性的实验研究对判别器结构进行分解，并提出一种新型网络架构，该架构在收敛速度和性能表现上均优于以往方法，显著提升了当前技术水平。随后，我们深入分析生成器中的循环单元结构，并提出一种新颖的循环单元设计：该单元根据预测的运动特征对历史隐藏状态进行变换，并进一步优化以有效处理遮挡、场景变化及其他复杂动态行为。实验结果表明，该循环单元在各项指标上均持续优于先前的设计。最终，我们的模型在大规模Kinetics-600数据集上实现了显著的性能跃升，将测试集的Fréchet视频距离（Fréchet Video Distance）从69.2降低至25.7，标志着视频预测领域的新里程碑。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供