
摘要
基于回归的方法得益于深度神经网络与大规模野外标注数据集的结合,在2D关键点定位任务中取得了革命性进展。然而,由于缺乏标注数据以及在三维视角下关键点定义的模糊性,3D关键点定位仍面临巨大挑战。本文重新审视基于回归的方法,提出了一种面向真实场景下2D与3D人脸关键点定位的对抗性体素与坐标联合回归框架。首先,引入一种语义体素表示方法,用于编码每个体素位置作为3D关键点的置信度概率。随后,设计了一个端到端的处理流程,联合回归所提出的体素表示与坐标向量。该框架不仅显著提升了预测的鲁棒性与精度,还实现了2D与3D关键点定位任务的统一,使得2D与3D数据集可被同时利用。进一步地,本文采用对抗学习策略,在弱监督设置下,将合成数据集中学到的3D结构知识迁移至真实世界数据集。为此,提出一个辅助回归判别器,以促使网络为合成图像和真实图像均生成合理且一致的预测结果。在3DFAW与AFLW2000-3D两个基准数据集上,本文方法在2D与3D人脸关键点定位任务中均得到了充分验证。实验结果表明,所提方法在各项指标上均显著优于现有的最先进方法。