
摘要
从自然图像中准确提取前景,对电影制作、增强现实等下游应用具有重要意义。然而,前景对象(如动物和人像)通常具有毛发细腻、外观多变等复杂特性,给现有的图像抠图方法带来了挑战。传统方法通常需要用户额外提供trimap或手绘草图等输入,限制了其在实际场景中的应用。为解决上述问题,本文系统研究了语义信息与细节特征在图像抠图任务中的不同作用,并将该任务分解为两个并行的子任务:高层语义分割与低层细节抠图。为此,我们提出一种新型的“凝视与聚焦抠图网络”(Glance and Focus Matting, GFM),该网络采用共享编码器和两个独立解码器,以协同方式联合学习语义分割与细节抠图任务,实现端到端的自然图像抠图。此外,由于真实自然图像在抠图任务中数据稀缺,以往方法普遍依赖合成图像进行训练与评估,导致模型在真实世界图像上的泛化能力受限。本文通过系统性分析合成图像与真实图像在前景与背景之间的多种差异,深入探讨了二者之间的域差距(domain gap)问题。研究发现,通过精心设计的合成策略——RSSN(Reduced Semantic and Style discrepancy Network),可有效缩小上述差异,从而显著提升模型的泛化性能。为进一步推动真实场景下抠图模型的评估,我们构建了一个基准数据集,包含2,000张高分辨率真实动物图像与10,000张人像图像,并附有手工标注的alpha抠图结果,为评估模型在真实世界图像上的泛化能力提供了可靠的测试平台。大量实验证明,所提出的GFM方法在多个指标上均优于现有最先进方法,显著降低了模型在真实场景中的泛化误差。相关代码与数据集将开源发布于:https://github.com/JizhiziLi/GFM。