6 个月前

摘要

视觉Transformer架构在图像分类任务中已被证明具有极高的有效性。然而，当前针对更具挑战性的视觉任务所采用的Transformer方法，仍依赖于卷积神经网络（CNN）作为特征提取的主干网络。本文研究了完全基于Transformer架构（即不包含任何CNN主干网络）在二维人体姿态估计任务中的应用。我们在COCO数据集上评估了两种ViT（Vision Transformer）架构，实验结果表明，采用编码器-解码器结构的Transformer模型能够在该任务上达到当前最优的性能水平。

源 PDF