
要約
ビジョン・トランスフォーマー(Vision Transformer: ViT)アーキテクチャは、画像分類タスクにおいて非常に効果的であることが実証されている。トランスフォーマーを用いたより困難な視覚タスクへの適用には、特徴抽出のために畳み込みニューラルネットワーク(CNN)ベースの構造が一般的に用いられてきた。本論文では、2次元ボディポーズ推定という問題に対して、CNNベースの構造を一切用いない純粋なトランスフォーマー・アーキテクチャの有効性を検討する。我々は、COCOデータセット上で2つのViTアーキテクチャを評価し、エンコーダ・デコーダ構造を採用したトランスフォーマーが、この推定問題において最先端(SOTA)の性能を達成できることを示した。