6 个月前

计算机视觉

计算机视觉

Fitsum Reda Janne Kontkanen Eric Tabellion Deqing Sun Caroline Pantofaru Brian Curless

摘要

我们提出了一种帧插值算法，能够从两幅具有大运动间隔的输入图像中合成多帧中间帧。现有的方法通常采用多个网络分别估计光流或深度信息，并辅以一个独立的网络进行帧合成，这种方法往往结构复杂，且依赖稀缺的光流或深度真值数据。在本工作中，我们提出一种单一的统一网络架构，其核心特征是采用多尺度特征提取器，并在所有尺度间共享权重，且仅需视频帧即可进行端到端训练。为生成清晰自然的插值帧，我们引入基于Gram矩阵的损失函数，该损失通过度量特征图之间的相关性差异来优化网络性能。实验结果表明，我们的方法在Xiph大运动基准测试中优于当前最先进的技术；与采用感知损失的方法相比，在Vimeo-90K、Middlebury和UCF101数据集上也取得了更高的评价分数。我们进一步研究了权重共享机制以及在运动范围逐步增大的数据集上进行训练的影响。最后，我们在一个具有挑战性的近似重复图像数据集上展示了本模型在生成高质量、时间上一致的视频序列方面的出色表现。相关代码与预训练模型已公开，可访问 https://film-net.github.io。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

计算机视觉

Fitsum Reda Janne Kontkanen Eric Tabellion Deqing Sun Caroline Pantofaru Brian Curless

摘要

我们提出了一种帧插值算法，能够从两幅具有大运动间隔的输入图像中合成多帧中间帧。现有的方法通常采用多个网络分别估计光流或深度信息，并辅以一个独立的网络进行帧合成，这种方法往往结构复杂，且依赖稀缺的光流或深度真值数据。在本工作中，我们提出一种单一的统一网络架构，其核心特征是采用多尺度特征提取器，并在所有尺度间共享权重，且仅需视频帧即可进行端到端训练。为生成清晰自然的插值帧，我们引入基于Gram矩阵的损失函数，该损失通过度量特征图之间的相关性差异来优化网络性能。实验结果表明，我们的方法在Xiph大运动基准测试中优于当前最先进的技术；与采用感知损失的方法相比，在Vimeo-90K、Middlebury和UCF101数据集上也取得了更高的评价分数。我们进一步研究了权重共享机制以及在运动范围逐步增大的数据集上进行训练的影响。最后，我们在一个具有挑战性的近似重复图像数据集上展示了本模型在生成高质量、时间上一致的视频序列方面的出色表现。相关代码与预训练模型已公开，可访问 https://film-net.github.io。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供