
全身ポーズ推定は、身体、手、顔、足などのキーポイントを同時に予測するという挑戦的なタスクであり、人体の顔、胴体、手、足など、細かいレベルのポーズ情報を予測することを目的としています。この技術は、人間中心の認知・生成研究およびさまざまな応用分野において重要な役割を果たしています。本研究では、2D/3D全身ポーズ推定を対象とした高性能モデル群であるRTMW(Real-Time Multi-person Whole-body pose estimation models)を提案します。RTMPoseのモデルアーキテクチャにFPN(Feature Pyramid Network)およびHEM(Hierarchical Encoding Module)を統合することで、スケールの異なる複数の身体部位からのポーズ情報をより効果的に捉えることが可能になりました。モデルは、手動でアノテーションが整備された多数のオープンソース人間キーポイントデータセットを用いて学習され、さらに二段階の知識蒸留戦略により性能が向上しています。RTMWは、複数の全身ポーズ推定ベンチマークにおいて優れた性能を示しつつ、高い推論効率とデプロイのしやすさを維持しています。本モデルはm/l/xの3つのサイズで公開されており、RTMW-lはCOCO-Wholebodyベンチマークで70.2 mAPを達成し、このベンチマークで70 mAPを超える最初のオープンソースモデルとなりました。同時に、RTMWの3D全身ポーズ推定への適用性についても検討し、座標分類アプローチに基づく画像ベースの単眼3D全身ポーズ推定を実施しました。本研究が学術界および産業界の両方の分野に貢献することを期待しています。コードおよびモデルは以下のURLから公開されています:https://github.com/open-mmlab/mmpose/tree/main/projects/rtmpose