7日前

ViTPose:人体ポーズ推定のためのシンプルなビジョン・トランスフォーマー基準手法

Yufei Xu, Jing Zhang, Qiming Zhang, Dacheng Tao
ViTPose:人体ポーズ推定のためのシンプルなビジョン・トランスフォーマー基準手法
要約

本稿では、特定のドメイン知識を考慮せずに設計されたシンプルなビジョントランスフォーマーが、視覚認識タスクにおいて優れた性能を示すことが明らかになっている。しかし、このような単純な構造がポーズ推定タスクにおける潜在能力を十分に解明したとは言いがたい。本研究では、単純なベースラインモデル「ViTPose」を用いて、モデル構造の単純さ、モデルサイズのスケーラビリティ、トレーニングパラダイムの柔軟性、およびモデル間の知識の転移可能性という観点から、シンプルなビジョントランスフォーマーがポーズ推定において驚くほど優れた能力を有することを示す。具体的には、ViTPoseは、人物インスタンスの特徴を抽出するために、階層構造を持たないシンプルなビジョントランスフォーマーをバックボーンとして採用し、ポーズ推定用に軽量なデコーダーを用いる。このアーキテクチャは、トランスフォーマーのスケーラブルなモデル容量と高い並列性を活かして、パラメータ数を1億(100M)から10億(1B)まで拡張可能であり、スループットと性能の間で新たなパレート最適境界(Pareto front)を達成した。さらに、ViTPoseはアテンションタイプ、入力解像度、事前学習および微調整戦略、複数のポーズ推定タスクへの対応において非常に柔軟性に富んでいる。また、大規模なViTPoseモデルの知識が、単純な「知識トークン(knowledge token)」を用いて小規模モデルに容易に転移可能であることを実証的に示した。実験結果から、基本的なViTPoseモデルが挑戦的なMS COCOキーポイント検出ベンチマークにおいて代表的な手法を上回ることを確認した。また、最大規模のモデルは新たなSOTA(最先端)性能を達成した。コードおよびモデルは、https://github.com/ViTAE-Transformer/ViTPose にて公開されている。

ViTPose:人体ポーズ推定のためのシンプルなビジョン・トランスフォーマー基準手法 | 最新論文 | HyperAI超神経