
摘要
近年来,热图回归模型因其在人脸关键点定位任务中表现出色而受到广泛关注。然而,这类模型仍面临三大核心问题:(1)计算开销较大;(2)通常缺乏对全局形状的显式约束;(3)存在显著的域间差异(domain gaps)。为解决上述问题,本文提出一种名为像素级像素网络(Pixel-in-Pixel Net, PIPNet)的人脸关键点检测模型。所提出的模型采用一种新颖的检测头结构,基于热图回归机制,在低分辨率特征图上同时进行得分预测与偏移量预测。该设计有效避免了传统方法中反复进行上采样操作的需要,显著降低了推理时间,同时保持了模型的高精度。此外,本文引入一种简单而高效的邻域回归模块,通过融合相邻关键点的预测结果来施加局部约束,从而增强新检测头的鲁棒性。为进一步提升PIPNet在跨域场景下的泛化能力,我们提出一种基于课程学习(curriculum learning)的自训练策略。该方法从较简单的任务出发,逐步增加任务难度,从而更有效地从跨域的无标签数据中挖掘出更可靠的伪标签,提升模型的适应性。大量实验结果表明,PIPNet在六大数据基准中的三个上取得了当前最优(state-of-the-art)性能,在监督学习设置下展现出显著优势。在两个跨域测试集上的表现也持续优于现有基线方法。尤为值得一提的是,PIPNet的轻量化版本在CPU和GPU上分别可达到35.7 FPS和200 FPS的推理速度,同时仍保持与当前先进方法相当的检测精度。PIPNet的代码已开源,可通过以下链接获取:https://github.com/jhb86253817/PIPNet。