HyperAIHyperAI

Command Palette

Search for a command to run...

DA-Flow:基于 Diffusion 模型的退化感知光流估计

Jaewon Min Jaeeun Lee Yeji Choi Paul Hyunbin Cho Jin Hyeon Kim Tae-Young Lee Jongsik Ahn Hwayeong Lee Seonghyun Park Seungryong Kim

摘要

在高质量数据上训练的光流模型,在面对模糊、噪声和压缩伪影等现实世界退化时,往往会出现性能严重下降。为克服这一局限,我们提出了“退化感知光流”(Degradation-Aware Optical Flow)这一新任务,旨在从存在现实世界退化的视频中实现精确的密集对应估计。我们的核心洞察在于:图像恢复 Diffusion 模型的中间表示天然具备退化感知能力,但缺乏时间感知能力。为此,我们通过引入全时空注意力机制(full spatio-temporal attention),使模型能够关注相邻帧之间的信息,从而赋予其时间感知能力;实验表明,由此生成的特征具备零样本(zero-shot)对应估计能力。基于这一发现,我们提出了 DA-Flow,这是一种混合架构,在迭代细化框架中将上述 Diffusion 特征与卷积特征进行融合。在多个基准测试中,DA-Flow 在严重退化场景下显著优于现有的光流方法。

一句话总结

KAIST AI 与 Hanwha Systems 的研究人员提出了 DA-Flow,这是一种混合光流模型。该模型通过引入全时空注意力机制,将预训练图像修复扩散模型的特征进行提升,从而在现有方法失效的严重现实世界退化场景下,实现鲁棒的稠密对应关系估计。

主要贡献

  • 本文将“退化感知光流”(Degradation-Aware Optical Flow)定义为一项新任务,旨在从严重退化的视频中估计准确的稠密对应关系,而非仅仅关注鲁棒性。
  • 通过注入帧间注意力机制,将预训练的图像修复扩散模型提升至处理多帧视频的能力,生成了即使在严重退化下也能编码几何对应关系的特征。
  • 提出了 DA-Flow 作为一种混合架构,在迭代细化框架内将这些扩散特征与卷积特征融合,在现有方法失效的退化基准测试中展现了卓越的性能。

引言

光流估计对于视频分析至关重要,然而现有在干净数据上训练的模型在面对模糊、噪声和压缩伪影等现实世界退化时表现严重不佳。以往尝试解决此问题往往依赖合成数据增强,或采用过早纠缠时间信息的视频扩散骨干网络,这破坏了精确像素级匹配所需的独立空间结构。作者利用预训练图像修复扩散模型的中间特征,这些特征天然编码了退化模式和几何结构,并通过注入跨帧注意力将其提升至处理视频的能力。他们提出了 DA-Flow,这是一种混合架构,将这种退化感知的扩散特征与标准卷积特征融合,从而在严重退化且以往方法失效的场景下实现鲁棒的光流估计。

方法

所提出的方法通过利用基于 DiT 的预训练图像修复模型来解决退化感知光流问题。作者首先将该图像级模型提升至视频域以支持时间推理。在原始的 MM-DiT 架构中,时间维度被折叠到批次轴中,导致模型独立处理每一帧。为了克服这一限制,作者重塑了模态流,将所有帧的空间标记进行拼接,将 FmR(BF)×T×C\mathbf{F}_{m} \in \mathbb{R}^{(BF) \times T \times C}FmR(BF)×T×C 转换为 F~mRB×(FT)×C\tilde{\mathbf{F}}_{m} \in \mathbb{R}^{B \times (FT) \times C}F~mRB×(FT)×C。这一修改实现了全时空注意力,使得标记能够关注整个视频序列中的所有空间位置。

如下图所示:

基于这一提升后的架构,作者提出了 DA-Flow,一种退化感知光流模型。该流程保留了 RAFT 中的相关性和迭代更新算子,但用混合系统替换了标准特征编码器。整体流程可表述为 Mθ=UC(Up(Dϕ),E)\mathcal{M}_{\theta} = \mathcal{U} \circ \mathcal{C} \circ (\mathrm{Up}(\mathcal{D}_{\phi}), \mathcal{E})Mθ=UC(Up(Dϕ),E)。该系统结合了来自提升扩散模型的特征与常规 CNN 编码器。由于扩散特征在粗糙网格上操作,因此采用基于 DPT 的头部将其上采样至与 CNN 特征兼容的分辨率。具体而言,独立的头部从扩散模型生成查询(query)、键(key)和上下文(context)特征。这些上采样后的特征与 CNN 特征拼接,形成混合表示。随后,相关性算子利用查询和键特征构建代价体(cost volume),而上下文特征则作为条件输入迭代更新算子以细化光流估计。模型使用多尺度光流损失进行训练,其伪真值标签源自高质量帧对,定义为 Lflow=i=1MγMifkk+1(i)fkk+11\mathcal{L}_{\mathrm{flow}} = \sum_{i=1}^{M} \gamma^{M-i} \left\| \mathbf{f}_{k \to k+1}^{(i)} - \mathbf{f}_{k \to k+1}^{*} \right\|_{1}Lflow=i=1MγMifkk+1(i)fkk+11

实验

  • 扩散特征分析验证了,在微调后的提升模型中,全时空注意力层的查询和键特征相较于未训练的基线,展现出更优越的零样本几何对应能力,且在去噪时间步上表现稳定。
  • 在 Sintel、Spring 和 TartanAir 基准测试上的定量评估表明,DA-Flow 在处理退化输入方面优于现有方法,实现了更低的端点误差和显著降低的异常值率。
  • 定性结果证实,所提出的方法在严重退化下能恢复出清晰且连贯的光流场,而基线方法则在运动边界和精细结构周围产生噪声伪影。
  • 消融研究证实,性能提升源于提升的扩散特征,而非对常规网络的简单微调;同时,将扩散特征与 CNN 编码器及基于 DPT 的上采样相结合对于实现最佳精度至关重要。
  • 在视频修复中的应用测试表明,准确的光流估计能够实现有效的时序对齐,减少闪烁并提高连续帧之间的结构稳定性。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供