18 天前

注意力引导的层级结构聚合用于图像抠图

{ Xiaopeng Wei, Qiang Zhang, Mingliang Xu, Dongsheng Zhou, Xin Yang, Yuhao Liu, Yu Qiao}
注意力引导的层级结构聚合用于图像抠图
摘要

基于深度学习的抠图算法通常依赖于高层语义特征来提升 alpha 抠图的整体结构质量。然而,我们认为从卷积神经网络(CNN)中提取的高级语义信息在 alpha 值感知中的贡献并不均衡,因此有必要将高级语义信息与低层外观特征进行有效融合,以精细化前景细节的恢复。为此,本文提出一种端到端的分层注意力抠图网络(Hierarchical Attention Matting Network, HAttMatting),该网络仅需单张 RGB 图像作为输入,即可预测出更优的 alpha 抠图结构。具体而言,我们设计了一种新颖的空间与通道注意力融合机制,用于整合外观线索与分层特征。该混合注意力机制能够从优化后的边界信息和自适应语义中更精准地感知 alpha 抠图结构。此外,我们引入一种混合损失函数,融合结构相似性(SSIM)、均方误差(MSE)与对抗损失(Adversarial Loss),以引导网络进一步优化前景的整体结构表现。为进一步提升所提分层结构聚合模型的鲁棒性,我们构建了一个大规模图像抠图数据集,包含 59,600 张训练图像和 1,000 张测试图像,共涵盖 646 种不同的前景 alpha 抠图。大量实验结果表明,所提出的 HAttMatting 能够有效捕捉复杂的前景结构,在仅输入单张 RGB 图像的情况下,取得了当前最优的性能表现。