2 个月前

基于补丁的级联扩散实现高分辨率帧插值

Hur, Junhwa ; Herrmann, Charles ; Saxena, Saurabh ; Kontkanen, Janne ; Lai, Wei-Sheng ; Shih, Yichang ; Rubinstein, Michael ; Fleet, David J. ; Sun, Deqing
基于补丁的级联扩散实现高分辨率帧插值
摘要

尽管近期取得了进展,现有的帧插值方法在处理极高分辨率输入和应对重复纹理、细长物体以及大运动等复杂情况时仍面临挑战。为了解决这些问题,我们提出了一种基于补丁的级联像素扩散模型——HiFI,该模型在这些场景中表现出色,并在标准基准测试中取得了具有竞争力的性能。级联模型通过从低分辨率到高分辨率生成一系列图像,可以显著改善需要全局上下文进行粗略解决方案和详细上下文进行高分辨率输出的大或复杂运动的处理。然而,与以往在逐渐增大的分辨率上执行扩散的级联扩散模型不同,我们使用了一个始终在同一分辨率上执行扩散并通过对输入和先前解的补丁进行处理来放大图像的单一模型。在推理过程中,这大大减少了内存使用,并且使得一个单一模型能够同时解决帧插值(基础模型的任务)和空间上采样问题,从而节省了训练成本。HiFI 在高分辨率图像和需要全局上下文的复杂重复纹理方面表现出色,在多个基准测试(Vimeo、Xiph、X-Test 和 SEPE-8K)中达到了可比或最先进的性能。此外,我们还引入了一个新的数据集 LaMoR,专注于特别具有挑战性的案例,HiFI 在该数据集上的表现显著优于其他基线方法。请访问我们的项目页面查看视频结果:https://hifi-diffusion.github.io