2ヶ月前
非監督クロスモーダルアライメントによる多人数3Dポーズ推定
Jogendra Nath Kundu; Ambareesh Revanur; Govind Vitthal Waghmare; Rahul Mysore Venkatesh; R. Venkatesh Babu

要約
私たちは、多人数の3次元人間姿勢推定に向けた展開しやすく、高速なボトムアップフレームワークを提案します。このフレームワークでは、新しい神経表現を採用し、人物インスタンスの位置とそれに対応する3次元姿勢表現を統一しています。これは、生成的な姿勢埋め込みを学習することで実現され、合理的な3次元姿勢予測を確保するとともに、従来のボトムアップアプローチで行われていた通常のキーポイントグループ化操作を排除します。さらに、ペアされた2次元または3次元姿勢注釈が利用できない場合でも実用的な展開パラダイムを提案します。ペアされた監督情報がない状況下では、多人数の2次元姿勢推定という補助タスクで事前に訓練されたフローズンネットワーク(教師モデル)を利用します。学習はクロスモーダルアライメント問題として設定し、2つの異なるモダリティ間で共有される潜在空間の実現を目指す訓練目標を提案します。私たちは、教師ネットワークの制約を超えてモデルの性能を向上させるために、人工的に合成された多人数3次元シーンサンプルを使用して潜在空間から3次元姿勢へのマッピングを豊かにすることを目指しています。私たちのアプローチは、野生環境での画像にも一般化できることだけでなく、速度と性能のトレードオフにおいても従来のトップダウンアプローチよりも優れています。また、一貫した監督レベルのもとでボトムアップアプローチの中でも最先端の多人数3次元姿勢推定性能を達成しています。