13 天前

基于注意力机制神经网络与空洞卷积的视频增强3D人体姿态估计

Ruixu Liu, Ju Shen, He Wang, Chen Chen, Sen-ching Cheung, Vijayan K. Asari
基于注意力机制神经网络与空洞卷积的视频增强3D人体姿态估计
摘要

注意力机制为学习具有增强隐式时间一致性的空间模型提供了一个序列化预测框架。本文系统性地提出了从2D到3D的架构设计方法,展示了如何将传统网络结构及其他形式的约束融入注意力框架,以学习姿态估计任务中的长距离依赖关系。本文的主要贡献在于提出了一种系统化的注意力模型设计与训练方法,适用于端到端的姿态估计任务,且具备处理任意视频序列输入的灵活性与可扩展性。我们通过采用多尺度空洞卷积结构来动态调整时间感受野,实现了这一目标。此外,所提出的架构可轻松适配为因果模型,从而支持实时性能。任何现成的2D姿态估计系统(如动作捕捉库)均可以即插即用的方式便捷集成。实验结果表明,本方法在Human3.6M数据集上取得了当前最优性能,将每关节位置误差的均值降低至33.4毫米。

基于注意力机制神经网络与空洞卷积的视频增强3D人体姿态估计 | 最新论文 | HyperAI超神经