
摘要
现有的肖像抠图方法要么需要难以获取的辅助输入,要么涉及多个计算成本高昂的阶段,这使得它们不太适合实时应用。在本研究中,我们提出了一种轻量级的肖像抠图目标分解网络(MODNet),该网络仅需单张输入图像即可实现实时肖像抠图。我们的高效设计的核心思想是通过显式约束同时优化一系列子目标。此外,MODNet引入了两种新颖的技术以提高模型效率和鲁棒性。首先,引入了一个高效的空洞空间金字塔池化(e-ASPP)模块,用于融合多尺度特征进行语义估计。其次,提出了一种自监督子目标一致性(SOC)策略,以适应真实世界数据并解决无三元图方法常见的领域偏移问题。MODNet可以轻松地以端到端的方式进行训练。它比同期的方法快得多,在1080Ti GPU上运行速度可达每秒67帧。实验表明,MODNet在Adobe抠图数据集和我们精心设计的摄影肖像抠图(PPM-100)基准测试中均大幅优于先前的无三元图方法。此外,MODNet在日常照片和视频中也取得了显著的结果。我们的代码和模型可在https://github.com/ZHKKKe/MODNet 获取,而PPM-100基准测试则发布在https://github.com/ZHKKKe/PPM。