2 个月前
GenHMR:生成式人体网格恢复
Saleem, Muhammad Usama ; Pinyoanuntapong, Ekkasit ; Wang, Pu ; Xue, Hongfei ; Das, Srijan ; Chen, Chen

摘要
人体网格恢复(HMR)在许多计算机视觉应用中至关重要,涉及从健康到艺术和娱乐等多个领域。单目图像的人体网格恢复主要通过确定性方法来解决,这些方法对于给定的2D图像输出单一预测结果。然而,由于深度模糊性和遮挡问题,单目图像的人体网格恢复是一个病态问题。概率方法试图通过生成并融合多个可能的3D重建来解决这一问题,但其性能通常落后于确定性方法。本文介绍了一种名为GenHMR的新颖生成框架,该框架将单目HMR重新定义为基于图像条件的生成任务,显式建模并缓解2D到3D映射过程中的不确定性。GenHMR包含两个关键组件:(1) 姿态分词器(pose tokenizer),用于将3D人体姿态转换为潜在空间中的离散标记序列;(2) 图像条件下的掩码变换器(image-conditional masked transformer),用于学习姿态标记的概率分布,条件输入包括图像提示以及随机掩码的标记序列。在推理过程中,模型从学习到的条件分布中采样,逐步解码高置信度的姿态标记,从而减少3D重建的不确定性。为了进一步优化重建效果,提出了一种基于2D姿态引导的细化技术,直接在潜在空间中微调解码后的姿态标记,迫使投影的3D人体网格与2D姿态线索对齐。基准数据集上的实验表明,GenHMR显著优于现有最先进方法。项目网站可访问 https://m-usamasaleem.github.io/publication/GenHMR/GenHMR.html 获取更多信息。