
摘要
近年来,机器学习中可识别信息引发的隐私问题日益受到关注。然而,以往的图像抠图方法均基于包含可识别信息的图像数据。为填补这一空白,本文提出P3M-10k,这是首个面向隐私保护人像抠图(Privacy-Preserving Portrait Matting, P3M)的大规模匿名化基准数据集。P3M-10k包含10,421张高分辨率人脸模糊的人像图像及其高质量的alpha抠图,能够系统地评估无需trimap与依赖trimap的各类抠图方法,并深入揭示在隐私保护训练(Privacy-Preserving Training, PPT)设定下模型泛化能力的相关规律。此外,我们提出一种统一的抠图模型——P3M-Net,该模型兼容CNN与Transformer两种骨干网络结构。为进一步缓解PPT设定下跨域性能差距的问题,我们设计了一种简单而有效的“复制粘贴”策略(P3M-CP),该策略从公开的名人图像中借用面部信息,引导网络在数据层面与特征层面重新学习人脸上下文。在P3M-10k及多个公开基准上的大量实验表明,P3M-Net在性能上优于当前最先进方法,且P3M-CP显著提升了模型的跨域泛化能力。这些结果充分彰显了P3M-10k在推动未来研究与实际应用中的重要价值。