6 个月前

计算机视觉

计算机视觉

Ziwen Li Bo Xu Han Huang Cheng Lu Yandong Guo

摘要

针对单图像方法在时间上存在不一致的问题，已有多种基于视频的三维人体姿态与形状估计算法被提出。然而，实现稳定且精确的三维重建仍具挑战性。本文提出一种新的框架——深度双流视频推理人体姿态与形状估计方法（Deep Two-Stream Video Inference for Human Body Pose and Shape Estimation, DTS-VIBE），用于从RGB视频中生成三维人体姿态与网格模型。我们将该任务重新建模为多模态融合问题，通过融合RGB图像与光流信息以提升估计的可靠性。为充分挖掘两种感知模态（RGB图像与光流）的互补优势，我们设计了一种基于Transformer的双流时序网络，用于预测SMPL人体参数。其中，作为辅助模态的光流信息通过利用连续帧之间的运动先验，有效增强了时间一致性。所提方法在Human3.6和3DPW两个公开数据集上进行了广泛评估，实验结果表明，该方法在性能上显著优于现有最先进的技术。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

计算机视觉

Ziwen Li Bo Xu Han Huang Cheng Lu Yandong Guo

摘要

针对单图像方法在时间上存在不一致的问题，已有多种基于视频的三维人体姿态与形状估计算法被提出。然而，实现稳定且精确的三维重建仍具挑战性。本文提出一种新的框架——深度双流视频推理人体姿态与形状估计方法（Deep Two-Stream Video Inference for Human Body Pose and Shape Estimation, DTS-VIBE），用于从RGB视频中生成三维人体姿态与网格模型。我们将该任务重新建模为多模态融合问题，通过融合RGB图像与光流信息以提升估计的可靠性。为充分挖掘两种感知模态（RGB图像与光流）的互补优势，我们设计了一种基于Transformer的双流时序网络，用于预测SMPL人体参数。其中，作为辅助模态的光流信息通过利用连续帧之间的运动先验，有效增强了时间一致性。所提方法在Human3.6和3DPW两个公开数据集上进行了广泛评估，实验结果表明，该方法在性能上显著优于现有最先进的技术。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供