2ヶ月前

CLIFF: 完全フレームに位置情報を組み込んだ人間の姿勢と形状推定

Li, Zhihao ; Liu, Jianzhuang ; Zhang, Zhensong ; Xu, Songcen ; Yan, Youliang
CLIFF: 完全フレームに位置情報を組み込んだ人間の姿勢と形状推定
要約

上位から下位への手法(トップダウン手法)が3次元人間姿勢と形状推定の分野で主流となっています。これは、これらの手法が人間検出から独立しており、研究者が核心的な問題に集中できるためです。しかし、クロッピングという最初のステップでは、位置情報が最初から捨てられてしまうため、元のカメラ座標系での全体的な回転を正確に予測することができません。この問題に対処するために、私たちは「フルフレームにおける位置情報を保持する」(Carry Location Information in Full Frames: CLIFF)という新しいアプローチを提案します。具体的には、クロッピングされた画像の特徴量とそのバウンディングボックス情報を連結することで、CLIFFにより包括的な特徴量を入力します。また、画像全体の広い視野を取り入れて2D再投影損失を計算し、画像内の人間が投影される過程と同様の投影過程を使用します。全体的な位置情報を意識した情報によって学習され監督されるCLIFFは、全体的な回転を直接予測するとともに、より正確な関節角度を持つ姿勢を推定します。さらに、CLIFFに基づく疑似真値アノテーターも提案しています。これにより、野生環境下的2Dデータセットに対して高品質な3次元アノテーションを提供し、回帰ベースの手法にとって重要な完全な教師あり学習が可能になります。一般的なベンチマークでの広範な実験結果は、CLIFFが既存の手法を大幅に上回り、AGORAリーダーボード(SMPLアルゴリズムトラック)で1位となることを示しています。コードとデータは以下のURLで公開されています。https://github.com/huawei-noah/noah-research/tree/master/CLIFF

CLIFF: 完全フレームに位置情報を組み込んだ人間の姿勢と形状推定 | 最新論文 | HyperAI超神経