15 天前

AggPose:用于婴儿姿态估计的深度聚合视觉Transformer

Xu Cao, Xiaoye Li, Liya Ma, Yi Huang, Xuan Feng, Zening Chen, Hongwu Zeng, Jianguo Cao
AggPose:用于婴儿姿态估计的深度聚合视觉Transformer
摘要

新生儿的运动与姿态评估有助于经验丰富的儿科医生预测神经发育障碍,从而实现相关疾病的早期干预。然而,当前大多数最先进的基于人工智能的人体姿态估计算法主要针对成人,缺乏面向婴儿姿态估计的公开基准数据集。本文通过提出一个婴儿姿态估计数据集,并引入一种名为Deep Aggregation Vision Transformer(AggPose)的人体姿态估计算法,填补了这一空白。该方法构建了一个无需在早期阶段使用卷积操作即可快速训练的全Transformer框架,将Transformer与MLP结构推广至特征图内部的高分辨率深层特征聚合,从而实现不同视觉层次间的信息融合。我们在COCO姿态数据集上对AggPose进行预训练,并将其应用于我们新发布的大型婴儿姿态估计数据集。实验结果表明,AggPose能够有效学习多尺度特征,显著提升婴儿姿态估计的性能。在婴儿姿态估计数据集上,AggPose的表现优于混合模型HRFormer和TokenPose;此外,在COCO验证集上的姿态估计任务中,AggPose平均优于HRFormer 0.8 AP。相关代码已开源,地址为:github.com/SZAR-LAB/AggPose。

AggPose:用于婴儿姿态估计的深度聚合视觉Transformer | 最新论文 | HyperAI超神经