HyperAIHyperAI

Command Palette

Search for a command to run...

ViTPose++: Vision Transformer for Generic Body Pose Estimation ViTPose++: 一般的ボディポーズ推定のためのビジョントランスフォーマー

Yufei Xu, Student Member, IEEE Jing Zhang, Senior Member, IEEE Qiming Zhang, Student Member, IEEE Dacheng Tao, Fellow, IEEE

概要

本論文では、単純なビジョントランスフォーマーが身体姿勢推定において驚くほど優れた特性を示すことを、モデル構造の簡素性、モデルサイズのスケーラビリティ、学習パラダイムの柔軟性、およびモデル間の知識転送可能性というさまざまな観点から示します。この研究では、シンプルなベースラインモデルであるViTPoseを用いてこれらの特性を検証しました。具体的には、ViTPoseは非階層的な単純ビジョントランスフォーマーをエンコーダとして使用し、特徴量を符号化し、トップダウンまたはボトムアップの方法で身体キーポイントをデコードする軽量デコーダを備えています。ビジョントランスフォーマーのスケーラブルなモデル容量と高い並列性を利用することで、約20Mから1Bパラメータまでスケールアップが可能であり、スループットと性能の新たなパレートフロントを設定しています。さらに、ViTPoseはアテンションタイプ、入力解像度、および事前学習と微調整戦略に関して非常に柔軟です。この柔軟性に基づき、異なる種類の身体姿勢推定タスクにおける異種の身体キーポイントカテゴリに対処するための新しいViTPose+モデルが提案されました。これは知識分解を通じて実現され(Knowledge Factorization)、トランスフォーマー内でタスクに依存しないフィードフォワードネットワークとタスク固有のフィードフォワードネットワークを使用します。また、我々は実験的に大規模なViTPoseモデルからの知識が簡単な知識トークンを通じて容易に小規模なモデルへ転送できることを示しました。実験結果によると、我々のViTPoseモデルはMS COCOヒューマンキーポイント検出ベンチマークにおいてトップダウンおよびボトムアップ設定双方で代表的な手法を超える性能を発揮しました。さらに、ViTPose+モデルはMS COCO、AI Challenger、OCHuman、MPIIの人間キーポイント検出やCOCO-Wholebody全体キーポイント検出だけでなく、AP-10KやAPT-36Kのような動物キーポイント検出でも最先端の性能を達成しており(State-of-the-Art Performance)、推論速度を犠牲にすることなく一連の身体姿勢推定タスクで優れた結果を示しています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています