Command Palette
Search for a command to run...
DA-Flow:基于 Diffusion 模型的退化感知光流估计
DA-Flow:基于 Diffusion 模型的退化感知光流估计
Jaewon Min Jaeeun Lee Yeji Choi Paul Hyunbin Cho Jin Hyeon Kim Tae-Young Lee Jongsik Ahn Hwayeong Lee Seonghyun Park Seungryong Kim
摘要
在高质量数据上训练的光流模型,在面对模糊、噪声和压缩伪影等现实世界退化时,往往会出现性能严重下降。为克服这一局限,我们提出了“退化感知光流”(Degradation-Aware Optical Flow)这一新任务,旨在从存在现实世界退化的视频中实现精确的密集对应估计。我们的核心洞察在于:图像恢复 Diffusion 模型的中间表示天然具备退化感知能力,但缺乏时间感知能力。为此,我们通过引入全时空注意力机制(full spatio-temporal attention),使模型能够关注相邻帧之间的信息,从而赋予其时间感知能力;实验表明,由此生成的特征具备零样本(zero-shot)对应估计能力。基于这一发现,我们提出了 DA-Flow,这是一种混合架构,在迭代细化框架中将上述 Diffusion 特征与卷积特征进行融合。在多个基准测试中,DA-Flow 在严重退化场景下显著优于现有的光流方法。
一句话总结
KAIST AI 与 Hanwha Systems 的研究人员提出了 DA-Flow,这是一种混合光流模型。该模型通过引入全时空注意力机制,将预训练图像修复扩散模型的特征进行提升,从而在现有方法失效的严重现实世界退化场景下,实现鲁棒的稠密对应关系估计。
主要贡献
- 本文将“退化感知光流”(Degradation-Aware Optical Flow)定义为一项新任务,旨在从严重退化的视频中估计准确的稠密对应关系,而非仅仅关注鲁棒性。
- 通过注入帧间注意力机制,将预训练的图像修复扩散模型提升至处理多帧视频的能力,生成了即使在严重退化下也能编码几何对应关系的特征。
- 提出了 DA-Flow 作为一种混合架构,在迭代细化框架内将这些扩散特征与卷积特征融合,在现有方法失效的退化基准测试中展现了卓越的性能。
引言
光流估计对于视频分析至关重要,然而现有在干净数据上训练的模型在面对模糊、噪声和压缩伪影等现实世界退化时表现严重不佳。以往尝试解决此问题往往依赖合成数据增强,或采用过早纠缠时间信息的视频扩散骨干网络,这破坏了精确像素级匹配所需的独立空间结构。作者利用预训练图像修复扩散模型的中间特征,这些特征天然编码了退化模式和几何结构,并通过注入跨帧注意力将其提升至处理视频的能力。他们提出了 DA-Flow,这是一种混合架构,将这种退化感知的扩散特征与标准卷积特征融合,从而在严重退化且以往方法失效的场景下实现鲁棒的光流估计。
方法
所提出的方法通过利用基于 DiT 的预训练图像修复模型来解决退化感知光流问题。作者首先将该图像级模型提升至视频域以支持时间推理。在原始的 MM-DiT 架构中,时间维度被折叠到批次轴中,导致模型独立处理每一帧。为了克服这一限制,作者重塑了模态流,将所有帧的空间标记进行拼接,将 Fm∈R(BF)×T×C 转换为 F~m∈RB×(FT)×C。这一修改实现了全时空注意力,使得标记能够关注整个视频序列中的所有空间位置。
如下图所示:

基于这一提升后的架构,作者提出了 DA-Flow,一种退化感知光流模型。该流程保留了 RAFT 中的相关性和迭代更新算子,但用混合系统替换了标准特征编码器。整体流程可表述为 Mθ=U∘C∘(Up(Dϕ),E)。该系统结合了来自提升扩散模型的特征与常规 CNN 编码器。由于扩散特征在粗糙网格上操作,因此采用基于 DPT 的头部将其上采样至与 CNN 特征兼容的分辨率。具体而言,独立的头部从扩散模型生成查询(query)、键(key)和上下文(context)特征。这些上采样后的特征与 CNN 特征拼接,形成混合表示。随后,相关性算子利用查询和键特征构建代价体(cost volume),而上下文特征则作为条件输入迭代更新算子以细化光流估计。模型使用多尺度光流损失进行训练,其伪真值标签源自高质量帧对,定义为 Lflow=∑i=1MγM−ifk→k+1(i)−fk→k+1∗1。
实验
- 扩散特征分析验证了,在微调后的提升模型中,全时空注意力层的查询和键特征相较于未训练的基线,展现出更优越的零样本几何对应能力,且在去噪时间步上表现稳定。
- 在 Sintel、Spring 和 TartanAir 基准测试上的定量评估表明,DA-Flow 在处理退化输入方面优于现有方法,实现了更低的端点误差和显著降低的异常值率。
- 定性结果证实,所提出的方法在严重退化下能恢复出清晰且连贯的光流场,而基线方法则在运动边界和精细结构周围产生噪声伪影。
- 消融研究证实,性能提升源于提升的扩散特征,而非对常规网络的简单微调;同时,将扩散特征与 CNN 编码器及基于 DPT 的上采样相结合对于实现最佳精度至关重要。
- 在视频修复中的应用测试表明,准确的光流估计能够实现有效的时序对齐,减少闪烁并提高连续帧之间的结构稳定性。