17日前

TransPose:Transformerを用いたキーポイント定位

Sen Yang, Zhibin Quan, Mu Nie, Wankou Yang
TransPose:Transformerを用いたキーポイント定位
要約

CNNベースのモデルは人体ポーズ推定において顕著な進展を遂げてきたが、それらが関節点の局所化にどのような空間的依存関係を捉えているのかについては、依然として明確でない。本研究では、人体ポーズ推定にTransformerを導入したモデルである\textbf{TransPose}を提案する。Transformerに組み込まれたアテンション層により、本モデルは長距離依存関係を効率的に捉えることができるとともに、予測された関節点がどの依存関係に依存しているのかを可視化することも可能となる。関節点のヒートマップを予測する際、最後のアテンション層が集約器(aggregator)として機能し、画像内の情報から寄与を収集して関節点の最大値位置を形成する。このTransformerを用いたヒートマップベースの局所化アプローチは、Activation Maximization~\cite{erhan2009visualizing}の原理に従っている。また、可視化された依存関係は画像固有かつ細分化されており、例えば遮蔽(occlusion)といった特殊ケースに対するモデルの処理メカニズムの証拠を提供することができる。実験の結果、TransPoseはCOCOのバリデーションセットおよびテストデベロッパー(test-dev)セットにおいてそれぞれ75.8 APおよび75.0 APを達成し、主流のCNNアーキテクチャと比較して軽量かつ高速であることが確認された。さらに、MPIIベンチマークにおいても優れた転移性能を示し、少量の学習コストで微調整を行うことで、テストセットにおいて優れた性能を発揮した。本研究のコードおよび事前学習済みモデルは公開されており、以下のURLから入手可能である\footnote{\url{https://github.com/yangsenius/TransPose}}。

TransPose:Transformerを用いたキーポイント定位 | 最新論文 | HyperAI超神経