8 个月前

计算机视觉

多任务学习

计算机视觉

Fabien Baradel Matthieu Armando Salma Galaaoui Romain Brégier Philippe Weinzaepfel Grégory Rogez Thomas Lucas

摘要

我们介绍了Multi-HMR，这是一种强大的单次模型，可以从单个RGB图像中恢复多人的3D人体网格。该模型的预测涵盖了整个人体，即包括手部和面部表情，使用了SMPL-X参数化模型以及在相机坐标系中的3D位置。我们的模型通过预测粗略的2D热图来检测人物位置，这些热图基于标准视觉变换器（Vision Transformer, ViT）骨干网络生成的特征。然后，该模型利用一种新的交叉注意力模块——人体预测头（Human Prediction Head, HPH），对每个检测到的人物的整体特征进行查询，以预测其全身姿态、形状和3D位置。由于直接从现有数据中学习手部和面部的精细姿态在单次预测中较为困难，我们引入了CUFFS数据集，即“全身主体的特写帧”（Close-Up Frames of Full-Body Subjects）数据集，其中包含靠近相机且手部姿势多样的人物。我们展示了将该数据集纳入训练数据可以进一步提高预测效果，特别是对手部的预测。此外，如果可用的话，Multi-HMR还可以选择性地考虑相机内参，通过为每个图像标记编码相机光线方向来实现这一点。这种简洁的设计在全身和仅身体部分的基准测试中均表现出色：即使在 $448{\times}448$ 分辨率的图像上使用ViT-S骨干网络也能获得快速且具有竞争力的模型，而更大的模型和更高的分辨率则能取得最先进的结果。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

计算机视觉

多任务学习

计算机视觉

Fabien Baradel Matthieu Armando Salma Galaaoui Romain Brégier Philippe Weinzaepfel Grégory Rogez Thomas Lucas

摘要

我们介绍了Multi-HMR，这是一种强大的单次模型，可以从单个RGB图像中恢复多人的3D人体网格。该模型的预测涵盖了整个人体，即包括手部和面部表情，使用了SMPL-X参数化模型以及在相机坐标系中的3D位置。我们的模型通过预测粗略的2D热图来检测人物位置，这些热图基于标准视觉变换器（Vision Transformer, ViT）骨干网络生成的特征。然后，该模型利用一种新的交叉注意力模块——人体预测头（Human Prediction Head, HPH），对每个检测到的人物的整体特征进行查询，以预测其全身姿态、形状和3D位置。由于直接从现有数据中学习手部和面部的精细姿态在单次预测中较为困难，我们引入了CUFFS数据集，即“全身主体的特写帧”（Close-Up Frames of Full-Body Subjects）数据集，其中包含靠近相机且手部姿势多样的人物。我们展示了将该数据集纳入训练数据可以进一步提高预测效果，特别是对手部的预测。此外，如果可用的话，Multi-HMR还可以选择性地考虑相机内参，通过为每个图像标记编码相机光线方向来实现这一点。这种简洁的设计在全身和仅身体部分的基准测试中均表现出色：即使在 $448{\times}448$ 分辨率的图像上使用ViT-S骨干网络也能获得快速且具有竞争力的模型，而更大的模型和更高的分辨率则能取得最先进的结果。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供