
摘要
自动图像抠图(Automatic Image Matting, AIM)是指在无需任何辅助输入(如trimap)的情况下,从任意自然图像中估计出柔和的前景区域,该技术在图像编辑领域具有重要应用价值。以往的方法通常试图学习语义特征以辅助抠图过程,但其性能受限于具有显著不透明前景(如人或动物)的图像。本文研究了将这些方法扩展至具有显著透明/精细前景或非显著前景的自然图像时所面临的挑战。为此,本文提出一种新型端到端抠图网络,能够为上述各类图像统一预测出广义trimap作为语义表示。同时,网络通过注意力机制引导学习到的语义特征聚焦于前景与背景的过渡区域。此外,我们构建了一个名为AIM-500的测试集,包含500张涵盖各类场景的多样化自然图像,并配有手工标注的alpha抠图,从而为评估AIM模型的泛化能力提供了可靠基准。实验结果表明,仅在现有合成抠图数据集上训练的本网络,在客观指标和主观视觉效果上均优于现有方法。相关源代码与数据集已开源,地址为:https://github.com/JizhiziLi/AIM。