2 个月前

利用步进变换器挖掘时间上下文用于三维人体姿态估计

Li, Wenhao ; Liu, Hong ; Ding, Runwei ; Liu, Mengyuan ; Wang, Pichao ; Yang, Wenming
利用步进变换器挖掘时间上下文用于三维人体姿态估计
摘要

尽管在从视频中进行3D人体姿态估计方面已经取得了显著进展,但如何充分利用冗余的2D姿态序列来学习生成单个3D姿态的代表性表示仍然是一个开放问题。为此,我们提出了一种改进的基于Transformer的架构,称为步进Transformer(Strided Transformer),该架构能够简单而有效地将长序列的2D关节位置提升为单个3D姿态。具体而言,采用了Vanilla Transformer编码器(VTE)来建模2D姿态序列的长距离依赖关系。为了减少序列的冗余性,VTE前馈网络中的全连接层被替换为步进卷积,以逐步缩短序列长度并聚合局部上下文的信息。修改后的VTE被称为步进Transformer编码器(STE),其构建在VTE输出的基础之上。STE不仅以层次化的全局和局部方式有效聚合了长距离信息到单向量表示中,还显著降低了计算成本。此外,设计了一种全序列到单帧监督方案,分别应用于VTE和STE的输出,在全序列和单目标帧尺度上实施监督。该方案结合单目标帧监督施加额外的时间平滑约束,从而有助于生成更平滑、更准确的3D姿态。所提出的步进Transformer在两个具有挑战性的基准数据集Human3.6M和HumanEva-I上进行了评估,并在参数较少的情况下达到了最先进的结果。代码和模型可在\url{https://github.com/Vegetebird/StridedTransformer-Pose3D}获取。注:由于本文档格式限制,无法直接显示URL链接,请读者自行复制链接访问相关资源。

利用步进变换器挖掘时间上下文用于三维人体姿态估计 | 最新论文 | HyperAI超神经