
要約
本研究では、RGB画像と人間の体の表面ベース表現との間で密集対応を確立し、これを「密集人間姿勢推定」と呼びます。まず、COCOデータセットに登場する5万人の人物に対して、効率的なアノテーションパイプラインを導入することで密集対応を集めました。次に、当該データセットを使用してCNN(畳み込みニューラルネットワーク)ベースのシステムを訓練し、「野生環境」下での密集対応を提供できるようにしました。ここでいう「野生環境」は、背景、遮蔽物、スケール変動が存在する状況を指します。さらに、訓練セットの有効性を向上させるために、「インペイント」ネットワークを訓練し、欠損した正解値を補完できるようにしました。これにより、過去に達成可能だった最高の結果よりも明確な改善が見られました。我々は完全畳み込みネットワークと領域ベースモデルの両方で実験を行い、後者の優位性を確認しました。さらにカスケード化によって精度を向上させ、リアルタイムで高精度な結果を提供するシステムを開発しました。補足資料やビデオはプロジェクトページ(http://densepose.org)で提供しています。