2ヶ月前

あなたは1つのクエリだけを学ぶ:単一ステージの多人数多タスク人間中心知覚のための統一された人間クエリの学習

Jin, Sheng ; Li, Shuhuai ; Li, Tong ; Liu, Wentao ; Qian, Chen ; Luo, Ping
あなたは1つのクエリだけを学ぶ:単一ステージの多人数多タスク人間中心知覚のための統一された人間クエリの学習
要約

人間中心の知覚(検出、セグメンテーション、姿勢推定、属性分析など)は、コンピュータビジョンにおける長年の課題です。本論文では、単一ステージでの多人数多タスクの人間中心知覚(HCP)を対象とした統合的かつ汎用的なフレームワーク(HQNet)を紹介します。当アプローチは、個々の人物の詳細なインスタンスレベルの特徴を捉え、複雑な多人数シナリオを解離する統一された人間クエリ表現(Human Query)の学習を中心に置いています。異なるHCPタスクは個別に十分に研究されてきましたが、単一ステージでの多タスク学習については、包括的なベンチマークデータセットの欠如により、まだ十分に活用されていません。このギャップを埋めるため、モデル開発と包括的な評価を可能にするCOCO-UniHumanベンチマークを提案します。実験結果は、提案手法が多タスクHCPモデルの中で最先端の性能を示し、タスク固有のHCPモデルと比較しても競争力のある性能であることを証明しています。さらに、実験結果はHuman Queryが新しいHCPタスクへの適応性を持つことを強調しており、その堅牢な汎化能力を示しています。コードとデータは以下のURLから入手可能です: https://github.com/lishuhuai527/COCO-UniHuman.