
要約
インスタンスレベルの人間解析は、実際のシナリオにおいて一般的であり、人間部位セグメンテーション、密集ポーズ推定、人間-物体相互作用など、多様な形で現れます。モデルは画像パネル内の異なる人間インスタンスを区別し、各インスタンスの詳細を表現する豊富な特徴を学習する必要があります。本論文では、インスタンスレベルの人間解析を解決するためのエンドツーエンドのパイプラインであるParsing R-CNNを提案します。この方法は、領域ベースアプローチの特性と人間の外観を総合的に考慮しながら、複数の人間インスタンスを同時に処理することが可能であり、それにより各インスタンスの詳細を表現することができます。Parsing R-CNNは非常に柔軟かつ効率的であり、人間インスタンス解析における多くの課題に適用可能です。我々の手法はCIHP(Crowd Instance-level Human Parsing)、MHP v2.0(Multi-Human Parsing)、およびDensePose-COCOデータセットにおいてすべての最先端手法を上回っています。提案されたParsing R-CNNに基づいて、COCO 2018チャレンジのDensePose推定タスクで1位となりました。コードとモデルは公開されています。