17 天前

PE-Former:姿态估计Transformer

Paschalis Panteleris, Antonis Argyros
PE-Former:姿态估计Transformer
摘要

视觉Transformer架构在图像分类任务中已被证明具有极高的有效性。然而,当前针对更具挑战性的视觉任务所采用的Transformer方法,仍依赖于卷积神经网络(CNN)作为特征提取的主干网络。本文研究了完全基于Transformer架构(即不包含任何CNN主干网络)在二维人体姿态估计任务中的应用。我们在COCO数据集上评估了两种ViT(Vision Transformer)架构,实验结果表明,采用编码器-解码器结构的Transformer模型能够在该任务上达到当前最优的性能水平。

PE-Former:姿态估计Transformer | 最新论文 | HyperAI超神经