17 天前

基于深度双流视频推理的人体姿态与形状估计

Ziwen Li, Bo Xu, Han Huang, Cheng Lu, Yandong Guo
基于深度双流视频推理的人体姿态与形状估计
摘要

针对单图像方法在时间上存在不一致的问题,已有多种基于视频的三维人体姿态与形状估计算法被提出。然而,实现稳定且精确的三维重建仍具挑战性。本文提出一种新的框架——深度双流视频推理人体姿态与形状估计方法(Deep Two-Stream Video Inference for Human Body Pose and Shape Estimation, DTS-VIBE),用于从RGB视频中生成三维人体姿态与网格模型。我们将该任务重新建模为多模态融合问题,通过融合RGB图像与光流信息以提升估计的可靠性。为充分挖掘两种感知模态(RGB图像与光流)的互补优势,我们设计了一种基于Transformer的双流时序网络,用于预测SMPL人体参数。其中,作为辅助模态的光流信息通过利用连续帧之间的运动先验,有效增强了时间一致性。所提方法在Human3.6和3DPW两个公开数据集上进行了广泛评估,实验结果表明,该方法在性能上显著优于现有最先进的技术。