2ヶ月前

人を位置づける:深度における単眼回帰の3D人物

Sun, Yu ; Liu, Wu ; Bao, Qian ; Fu, Yili ; Mei, Tao ; Black, Michael J.
人を位置づける:深度における単眼回帰の3D人物
要約

複数の人物が含まれる画像に対して、私たちの目標は全員の姿勢と形状を直接回帰し、それらの相対的な深度も推定することです。しかし、人物の身長を知らないと、画像中の人物の深度を推定することは本質的に曖昧になります。特に、乳児から大人まで非常に異なるサイズの人々が含まれるシーンでは問題となります。これを解決するためにはいくつかの要素が必要です。まず、単一の画像から複数の人物の姿勢と深度を推定する新しい方法を開発しました。従来の研究では、複数の人々を推定するために画像平面上での推論を行っていましたが、当社の方法であるBEV(Bird's-Eye-View)は、深度について明示的に推論するために仮想的な上空からの視点表現を追加します。BEVは画像内の身体中心と深度における身体中心を同時に推論し、これらを組み合わせることで3次元の身体位置を推定します。BEVは従来の手法とは異なり、一発で動作し、エンドツーエンドで微分可能な単一ショット手法です。次に、身長は年齢によって変動するため、画像中的人物の深度を解消するにはその年齢も推定する必要があります。これを行うために、BEVが乳児から大人までの形状を推定できる3次元ボディモデル空間を利用しています。さらに、BEVを訓練するために新しいデータセットが必要です。具体的には、「Relative Human」(RH)データセットを作成しました。このデータセットには年齢ラベルと画像内的人物間の相対的な深度関係が含まれています。RHおよびAGORAでの広範な実験により、モデルと訓練スキームの有効性が示されています。BEVは既存の手法よりも深度推論、子供の形状推定、遮蔽に対する堅牢性において優れています。研究目的のためにコードとデータセットが公開されています。

人を位置づける:深度における単眼回帰の3D人物 | 最新論文 | HyperAI超神経