8 个月前

多任务学习

计算机视觉

计算机视觉

C. Li J. Zhang

摘要

单目3D人体姿态估计技术有潜力大幅增加人体运动数据的可用性。目前，表现最佳的单图像2D-3D提升模型通常使用图卷积网络（GCNs），这些网络通常需要一些手动输入来定义不同身体关节之间的关系。我们提出了一种基于 Transformer 的新方法，该方法利用更为通用的自注意力机制来学习由表示关节的一系列标记组成的序列中的这些关系。我们发现，使用中间监督以及堆叠编码器之间的残差连接有助于提高性能。此外，我们建议在多任务学习框架中引入误差预测可以改善性能，使网络能够根据其置信度进行补偿。我们进行了广泛的消融研究，以证明我们的每一项贡献都能提升性能。进一步研究表明，我们的方法在单帧3D人体姿态估计方面显著优于近期的最先进水平。我们的代码和训练模型已在Github上公开发布。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

多任务学习

计算机视觉

计算机视觉

C. Li J. Zhang

摘要

单目3D人体姿态估计技术有潜力大幅增加人体运动数据的可用性。目前，表现最佳的单图像2D-3D提升模型通常使用图卷积网络（GCNs），这些网络通常需要一些手动输入来定义不同身体关节之间的关系。我们提出了一种基于 Transformer 的新方法，该方法利用更为通用的自注意力机制来学习由表示关节的一系列标记组成的序列中的这些关系。我们发现，使用中间监督以及堆叠编码器之间的残差连接有助于提高性能。此外，我们建议在多任务学习框架中引入误差预测可以改善性能，使网络能够根据其置信度进行补偿。我们进行了广泛的消融研究，以证明我们的每一项贡献都能提升性能。进一步研究表明，我们的方法在单帧3D人体姿态估计方面显著优于近期的最先进水平。我们的代码和训练模型已在Github上公开发布。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供