17 小时前

Jaewon Min Jaeeun Lee Yeji Choi Paul Hyunbin Cho Jin Hyeon Kim Tae-Young Lee Jongsik Ahn Hwayeong Lee Seonghyun Park Seungryong Kim

摘要

在高质量数据上训练的光流模型，在面对模糊、噪声和压缩伪影等现实世界退化时，往往会出现性能严重下降。为克服这一局限，我们提出了“退化感知光流”（Degradation-Aware Optical Flow）这一新任务，旨在从存在现实世界退化的视频中实现精确的密集对应估计。我们的核心洞察在于：图像恢复 Diffusion 模型的中间表示天然具备退化感知能力，但缺乏时间感知能力。为此，我们通过引入全时空注意力机制（full spatio-temporal attention），使模型能够关注相邻帧之间的信息，从而赋予其时间感知能力；实验表明，由此生成的特征具备零样本（zero-shot）对应估计能力。基于这一发现，我们提出了 DA-Flow，这是一种混合架构，在迭代细化框架中将上述 Diffusion 特征与卷积特征进行融合。在多个基准测试中，DA-Flow 在严重退化场景下显著优于现有的光流方法。

一句话总结

KAIST AI 与 Hanwha Systems 的研究人员提出了 DA-Flow，这是一种混合光流模型。该模型通过引入全时空注意力机制，将预训练图像修复扩散模型的特征进行提升，从而在现有方法失效的严重现实世界退化场景下，实现鲁棒的稠密对应关系估计。

主要贡献

本文将“退化感知光流”（Degradation-Aware Optical Flow）定义为一项新任务，旨在从严重退化的视频中估计准确的稠密对应关系，而非仅仅关注鲁棒性。
通过注入帧间注意力机制，将预训练的图像修复扩散模型提升至处理多帧视频的能力，生成了即使在严重退化下也能编码几何对应关系的特征。
提出了 DA-Flow 作为一种混合架构，在迭代细化框架内将这些扩散特征与卷积特征融合，在现有方法失效的退化基准测试中展现了卓越的性能。

引言

光流估计对于视频分析至关重要，然而现有在干净数据上训练的模型在面对模糊、噪声和压缩伪影等现实世界退化时表现严重不佳。以往尝试解决此问题往往依赖合成数据增强，或采用过早纠缠时间信息的视频扩散骨干网络，这破坏了精确像素级匹配所需的独立空间结构。作者利用预训练图像修复扩散模型的中间特征，这些特征天然编码了退化模式和几何结构，并通过注入跨帧注意力将其提升至处理视频的能力。他们提出了 DA-Flow，这是一种混合架构，将这种退化感知的扩散特征与标准卷积特征融合，从而在严重退化且以往方法失效的场景下实现鲁棒的光流估计。

方法

所提出的方法通过利用基于 DiT 的预训练图像修复模型来解决退化感知光流问题。作者首先将该图像级模型提升至视频域以支持时间推理。在原始的 MM-DiT 架构中，时间维度被折叠到批次轴中，导致模型独立处理每一帧。为了克服这一限制，作者重塑了模态流，将所有帧的空间标记进行拼接，将 $\mathbf{F}_{m} \in \mathbb{R}^{(BF) \times T \times C}$ 转换为 $\tilde{\mathbf{F}}_{m} \in \mathbb{R}^{B \times (FT) \times C}$ 。这一修改实现了全时空注意力，使得标记能够关注整个视频序列中的所有空间位置。

如下图所示：

基于这一提升后的架构，作者提出了 DA-Flow，一种退化感知光流模型。该流程保留了 RAFT 中的相关性和迭代更新算子，但用混合系统替换了标准特征编码器。整体流程可表述为 $\mathcal{M}_{\theta} = \mathcal{U} \circ \mathcal{C} \circ (\mathrm{Up}(\mathcal{D}_{\phi}), \mathcal{E})$ 。该系统结合了来自提升扩散模型的特征与常规 CNN 编码器。由于扩散特征在粗糙网格上操作，因此采用基于 DPT 的头部将其上采样至与 CNN 特征兼容的分辨率。具体而言，独立的头部从扩散模型生成查询（query）、键（key）和上下文（context）特征。这些上采样后的特征与 CNN 特征拼接，形成混合表示。随后，相关性算子利用查询和键特征构建代价体（cost volume），而上下文特征则作为条件输入迭代更新算子以细化光流估计。模型使用多尺度光流损失进行训练，其伪真值标签源自高质量帧对，定义为 $\mathcal{L}_{\mathrm{flow}} = \sum_{i=1}^{M} \gamma^{M-i} \left\| \mathbf{f}_{k \to k+1}^{(i)} - \mathbf{f}_{k \to k+1}^{*} \right\|_{1}$ 。

实验

扩散特征分析验证了，在微调后的提升模型中，全时空注意力层的查询和键特征相较于未训练的基线，展现出更优越的零样本几何对应能力，且在去噪时间步上表现稳定。
在 Sintel、Spring 和 TartanAir 基准测试上的定量评估表明，DA-Flow 在处理退化输入方面优于现有方法，实现了更低的端点误差和显著降低的异常值率。
定性结果证实，所提出的方法在严重退化下能恢复出清晰且连贯的光流场，而基线方法则在运动边界和精细结构周围产生噪声伪影。
消融研究证实，性能提升源于提升的扩散特征，而非对常规网络的简单微调；同时，将扩散特征与 CNN 编码器及基于 DPT 的上采样相结合对于实现最佳精度至关重要。
在视频修复中的应用测试表明，准确的光流估计能够实现有效的时序对齐，减少闪烁并提高连续帧之间的结构稳定性。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

HyperAI

17 小时前

扩散模型

视频处理

Jaewon Min Jaeeun Lee Yeji Choi Paul Hyunbin Cho Jin Hyeon Kim Tae-Young Lee Jongsik Ahn Hwayeong Lee Seonghyun Park Seungryong Kim

摘要

一句话总结

主要贡献

本文将“退化感知光流”（Degradation-Aware Optical Flow）定义为一项新任务，旨在从严重退化的视频中估计准确的稠密对应关系，而非仅仅关注鲁棒性。
通过注入帧间注意力机制，将预训练的图像修复扩散模型提升至处理多帧视频的能力，生成了即使在严重退化下也能编码几何对应关系的特征。
提出了 DA-Flow 作为一种混合架构，在迭代细化框架内将这些扩散特征与卷积特征融合，在现有方法失效的退化基准测试中展现了卓越的性能。

引言

方法

如下图所示：

实验

扩散特征分析验证了，在微调后的提升模型中，全时空注意力层的查询和键特征相较于未训练的基线，展现出更优越的零样本几何对应能力，且在去噪时间步上表现稳定。
在 Sintel、Spring 和 TartanAir 基准测试上的定量评估表明，DA-Flow 在处理退化输入方面优于现有方法，实现了更低的端点误差和显著降低的异常值率。
定性结果证实，所提出的方法在严重退化下能恢复出清晰且连贯的光流场，而基线方法则在运动边界和精细结构周围产生噪声伪影。
消融研究证实，性能提升源于提升的扩散特征，而非对常规网络的简单微调；同时，将扩散特征与 CNN 编码器及基于 DPT 的上采样相结合对于实现最佳精度至关重要。
在视频修复中的应用测试表明，准确的光流估计能够实现有效的时序对齐，减少闪烁并提高连续帧之间的结构稳定性。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

DA-Flow：基于 Diffusion 模型的退化感知光流估计

Jaewon Min Jaeeun Lee Yeji Choi Paul Hyunbin Cho Jin Hyeon Kim Tae-Young Lee Jongsik Ahn Hwayeong Lee Seonghyun Park Seungryong Kim

摘要

一句话总结

主要贡献

引言

方法

实验

用 AI 构建 AI

HyperAI Newsletters

Command Palette

DA-Flow：基于 Diffusion 模型的退化感知光流估计

Jaewon Min Jaeeun Lee Yeji Choi Paul Hyunbin Cho Jin Hyeon Kim Tae-Young Lee Jongsik Ahn Hwayeong Lee Seonghyun Park Seungryong Kim

摘要

一句话总结

主要贡献

引言

方法

实验

用 AI 构建 AI

HyperAI Newsletters

Command Palette

DA-Flow：基于 Diffusion 模型的退化感知光流估计

Jaewon Min Jaeeun Lee Yeji Choi Paul Hyunbin Cho Jin Hyeon Kim Tae-Young Lee Jongsik Ahn Hwayeong Lee Seonghyun Park Seungryong Kim

摘要

一句话总结

主要贡献

引言

方法

实验

用 AI 构建 AI

HyperAI Newsletters