6 个月前

计算机视觉

Yihan Hu Yiheng Lin Wei Wang Yao Zhao Yunchao Wei Humphrey Shi

摘要

我们旨在利用扩散模型（diffusion）来解决图像抠图（image matting）这一极具挑战性的任务。然而，高计算开销以及训练与推理过程中噪声采样不一致的问题，严重制约了该目标的实现。本文提出了一种名为 DiffMatte 的新方法，旨在有效克服上述挑战。首先，DiffMatte 将解码器从原本高度耦合的抠图网络结构中解耦出来，仅在扩散过程的迭代中引入一个轻量级解码器。该策略有效抑制了随着采样数量增加而带来的计算开销增长。其次，我们采用了一种基于均匀时间间隔的自对齐训练策略，确保在整个时间域内训练与推理阶段的噪声采样保持一致。DiffMatte 设计具有高度灵活性，可无缝集成至多种现代抠图架构中。大量实验结果表明，DiffMatte 在 Composition-1k 测试集上达到了当前最优水平，相较于以往最佳方法，在 SAD 指标上提升 5%，在 MSE 指标上提升 15%；同时在其他多个基准测试中也展现出更强的泛化能力。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

Yihan Hu Yiheng Lin Wei Wang Yao Zhao Yunchao Wei Humphrey Shi

摘要

我们旨在利用扩散模型（diffusion）来解决图像抠图（image matting）这一极具挑战性的任务。然而，高计算开销以及训练与推理过程中噪声采样不一致的问题，严重制约了该目标的实现。本文提出了一种名为 DiffMatte 的新方法，旨在有效克服上述挑战。首先，DiffMatte 将解码器从原本高度耦合的抠图网络结构中解耦出来，仅在扩散过程的迭代中引入一个轻量级解码器。该策略有效抑制了随着采样数量增加而带来的计算开销增长。其次，我们采用了一种基于均匀时间间隔的自对齐训练策略，确保在整个时间域内训练与推理阶段的噪声采样保持一致。DiffMatte 设计具有高度灵活性，可无缝集成至多种现代抠图架构中。大量实验结果表明，DiffMatte 在 Composition-1k 测试集上达到了当前最优水平，相较于以往最佳方法，在 SAD 指标上提升 5%，在 MSE 指标上提升 15%；同时在其他多个基准测试中也展现出更强的泛化能力。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供