
摘要
面部解析旨在对图像中目标人脸的各个面部组件进行像素级标签预测。现有方法通常在预处理阶段根据计算得到的边界框从输入图像中裁剪出目标人脸,因此仅能解析人脸内部的感兴趣区域(Region of Interest, RoI),而忽略了如头发等外围区域。此外,当边界框内部分包含邻近人脸时,这些无关对象可能造成干扰。更重要的是,这些方法仅在近正脸的人像图像上进行训练与评估,其在真实复杂场景(in-the-wild)下的表现尚未得到充分探索。为解决上述问题,本文提出三项主要贡献。首先,我们构建了iBugMask数据集,用于野外环境下的面部解析任务,包含21,866张训练图像和1,000张测试图像。训练图像通过在现有数据集基础上引入大姿态人脸进行数据增强获得;测试图像则由人工标注了11个面部区域,涵盖显著的尺寸、姿态、表情及背景差异,具有高度多样性。其次,我们提出一种RoI Tanh-极坐标变换(RoI Tanh-polar transform),该方法基于目标边界框,将整幅图像映射至固定比例的面部区域与上下文区域的Tanh-极坐标表示中。该新表示形式保留了原始图像的所有信息,并支持卷积神经网络(CNN)中的旋转等变性(rotation equivariance)。第三,我们设计了一种混合残差表示学习模块,命名为HybridBlock,其在Tanh-极坐标空间与Tanh-笛卡尔空间中均包含卷积层,从而在CNN中实现具有不同形状感受野的特征提取能力。通过大量实验验证,所提方法在野外环境下的面部解析任务中显著优于现有最先进水平,且无需依赖面部关键点进行对齐。