2ヶ月前
UniHCP: 人間中心の知覚の統一モデル
Ci, Yuanzheng ; Wang, Yizhou ; Chen, Meilin ; Tang, Shixiang ; Bai, Lei ; Zhu, Feng ; Zhao, Rui ; Yu, Fengwei ; Qi, Donglian ; Ouyang, Wanli

要約
人間中心の知覚(姿勢推定、人間パーシング、歩行者検出、個人再識別など)は、視覚モデルの産業応用において重要な役割を果たしています。特定の人間中心タスクにはそれぞれ関連する意味的な側面がありますが、それらは人間の体の共通の意味構造も共有しています。しかし、このような均質性を活用し、汎用人間中心モデルを設計しようとする研究は少ないのが現状です。本研究では、広範な人間中心タスクを見直し、ミニマリスト的な手法で統一しました。私たちは UniHCP(Unified Model for Human-Centric Perceptions:人間中心知覚統合モデル)を提案します。このモデルは、単純なエンドツーエンド方式で多様な人間中心タスクを統一し、一般的なビジョントランスフォーマーarchitectureを使用しています。大規模な33の人間中心データセットでの共同学習により、UniHCPはいくつかのドメイン内およびダウンストリームタスクで強力なベースラインを超える性能を示すことが直接評価によって確認されました。特定のタスクに適応させると、UniHCPは多岐にわたる人間中心タスクで新たな最先端(SOTA)の結果を達成します。例えば、CIHPでの69.8 mIoU(mean Intersection over Union)、PA-100Kでの86.18 mA(mean Accuracy)、Market1501での90.3 mAP(mean Average Precision)、CrowdHumanでの85.8 JI(Jaccard Index)などであり、各タスクに特化したモデルよりも優れた性能を発揮しています。