
要約
人間パースと姿勢推定は、その実用的な応用可能性により、最近大きな関心を集めています。しかし、既存のデータセットは画像やアノテーションの数が限られており、制約のない環境における多様な人間の外見や困難なケースをカバーしていません。本論文では、「Look into Person (LIP)」という新しいベンチマークを紹介します。このベンチマークは、スケーラビリティ、多様性、難易度という面で大幅な進歩をもたらし、これらは人間中心分析の今後の発展にとって重要な要素です。この包括的なデータセットには、19の意味的部位ラベルと16の体節点を持つ50,000枚以上の詳細にアノテーションされた画像が含まれており、これらの画像は広範な視点、遮蔽物、背景の複雑さから収集されています。これらの豊富なアノテーションを使用して、主要な人間パースと姿勢推定手法について詳細な分析を行い、これらの方法の成功と失敗に関する洞察を得ました。さらに、これらの2つのタスクの意味的相関性を探索し活用するために、効率的なコンテキストモデリングを行う新しい共同人間パースと姿勢推定ネットワークを提案しました。これにより、両方を極めて高い品質で同時に予測することが可能になります。また、追加の監督なしに人間の姿勢構造をパース結果に組み込むため、新しい自己監督型構造感度学習アプローチを探索しネットワークを簡素化しました。データセット、コードおよびモデルは http://www.sysu-hcp.net/lip/ で利用可能です。