
摘要
本研究旨在探索一种自监督的三维服装重建方法,该方法能够从单张二维图像中恢复人体服装的几何形状与纹理信息。相较于现有方法,我们发现仍存在三个主要挑战:(1)由于标注难度高且耗时,服装的三维真实网格(3D ground-truth meshes)通常难以获取;(2)传统基于模板的方法在建模非刚性物体(如手袋、连衣裙等)方面存在局限性,而这类物体在时尚图像中极为常见;(3)固有的歧义性会严重影响模型训练,例如远距离拍摄大尺寸服装与近距离拍摄小尺寸服装之间的模糊性问题。为应对上述限制,本文提出一种具有因果感知能力的自监督学习方法,可在无需任何三维标注的前提下,自适应地实现对二维图像中非刚性物体的三维重建。具体而言,为解决四个隐式变量(即相机位姿、形状、纹理与光照)之间的内在歧义问题,我们引入了一种可解释的结构化因果模型(Structural Causal Model, SCM),用于构建整体模型框架。所提出的模型结构遵循因果图的建模思想,在相机位姿估计与形状预测过程中显式地融入先验模板信息。在优化过程中,我们深度嵌入因果干预工具——即双期望最大化(Expectation-Maximization)迭代循环,以实现两个关键目标:(1)解耦四个独立编码器,提升特征表达的独立性;(2)有效利用并优化先验模板,增强重建稳定性与准确性。在两个主流二维时尚图像基准数据集(ATR 与 Market-HQ)上的大量实验表明,所提方法能够实现高保真度的三维重建效果。此外,我们进一步验证了该方法在细粒度鸟类数据集(CUB)上的可扩展性,结果表明其具备良好的泛化能力。相关代码已开源,地址为:https://github.com/layumi/3D-Magic-Mirror。