
摘要
我们提出了一种条件估计(Conditional Estimation, CEST)框架,通过自监督方式从视频中学习二维单视角图像的三维人脸参数。CEST基于“分析-合成”(analysis-by-synthesis)的范式:首先从人脸图像中估计三维人脸参数(包括形状、反射率、视角和光照),然后将这些参数重新合成以重建二维人脸图像。为在无显式标签的情况下学习具有语义意义的三维人脸参数,CEST通过考虑不同三维参数之间的统计依赖关系,实现对各参数估计的耦合。具体而言,任一三维人脸参数的估计不仅依赖于输入图像,还依赖于已推导出的其他人脸参数。此外,CEST引入了反射率对称性及视频帧间的一致性约束,以进一步提升参数解耦效果。结合一种新颖的反射率对称性与一致性融合策略,CEST能够高效地利用真实场景(in-the-wild)视频片段进行训练。定性和定量实验均验证了该方法的有效性。