6 个月前

机器视觉 3D

计算机视觉

计算机视觉

Fuyang Huang Ailing Zeng Minhao Liu Qiuxia Lai Qiang Xu

摘要

本文提出了一种两阶段全三维网络结构，命名为 DeepFuse，通过深度融合可穿戴惯性测量单元（IMU）数据与多视角图像，实现对人体三维姿态的精确估计。第一阶段专注于纯视觉姿态估计，为保留多视角输入数据的原始特性，该视觉阶段采用多通道体素（multi-channel volume）作为数据表示形式，并引入三维软最大值（3D soft-argmax）作为激活层。第二阶段为IMU精修阶段，创新性地设计了IMU-骨骼层（IMU-bone layer），在数据层面更早地实现IMU与视觉信息的融合。该方法无需预先给定骨骼模型，即可在TotalCapture数据集上达到28.9 mm的平均关节点误差，在Human3.6M数据集上（按协议1评估）达到13.4 mm的平均关节点误差，显著超越当前最优（SOTA）性能。最后，本文通过实验验证了全三维网络在三维姿态估计任务中的有效性，为后续相关研究提供了有益启示。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

机器视觉 3D

计算机视觉

计算机视觉

Fuyang Huang Ailing Zeng Minhao Liu Qiuxia Lai Qiang Xu

摘要

本文提出了一种两阶段全三维网络结构，命名为 DeepFuse，通过深度融合可穿戴惯性测量单元（IMU）数据与多视角图像，实现对人体三维姿态的精确估计。第一阶段专注于纯视觉姿态估计，为保留多视角输入数据的原始特性，该视觉阶段采用多通道体素（multi-channel volume）作为数据表示形式，并引入三维软最大值（3D soft-argmax）作为激活层。第二阶段为IMU精修阶段，创新性地设计了IMU-骨骼层（IMU-bone layer），在数据层面更早地实现IMU与视觉信息的融合。该方法无需预先给定骨骼模型，即可在TotalCapture数据集上达到28.9 mm的平均关节点误差，在Human3.6M数据集上（按协议1评估）达到13.4 mm的平均关节点误差，显著超越当前最优（SOTA）性能。最后，本文通过实验验证了全三维网络在三维姿态估计任务中的有效性，为后续相关研究提供了有益启示。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供