2ヶ月前
Lite Pose: 2D人間姿勢推定のための効率的なアーキテクチャ設計
Wang, Yihan ; Li, Muyang ; Cai, Han ; Chen, Wei-Ming ; Han, Song

要約
姿勢推定は、人間中心のビジョン応用において重要な役割を果たしています。しかし、最新のHRNetベースの姿勢推定モデルをリソースに制約のあるエッジデバイスに展開することは、高い計算コスト(1フレームあたり150 GMACs以上)のために困難です。本論文では、エッジでのリアルタイム多人数姿勢推定のための効率的なアーキテクチャ設計について研究します。我々の段階的な縮小実験により、低計算領域におけるHRNetの高解像度ブランチが冗長であることが明らかになりました。これらのブランチを削除することで、効率と性能が向上します。この知見に基づいて、我々はLitePoseという効率的な単一ブランチアーキテクチャを設計し、LitePoseの容量を向上させる2つのシンプルな手法を提案します。それらはFusion Deconv HeadとLarge Kernel Convsです。Fusion Deconv Headは高解像度ブランチの冗長性を取り除き、低いオーバーヘッドでスケール認識特徴量融合を可能にします。Large Kernel Convsは計算コストを維持しながら、モデルの容量と受容野を大幅に向上させます。CrowdPoseデータセットにおいて、7x7カーネルは3x3カーネルよりも25%の計算増加だけで+14.0 mAP高い性能を達成しました。モバイルプラットフォーム上では、LitePoseは以前の最先端効率的な姿勢推定モデルと比較して最大5.0倍の遅延短縮を実現し、性能低下なしにエッジでのリアルタイム多人数姿勢推定の最前線を押し進めています。我々のコードと事前学習済みモデルは、https://github.com/mit-han-lab/litepose で公開されています。