
要約
多人解析は、インスタンスレベルと細かいカテゴリーレベルの情報が必要な画像セグメンテーションタスクです。しかし、これまでの研究では、これらの2種類の情報を別々のブランチと異なる出力形式で処理することが一般的であり、これにより非効率的かつ冗長なフレームワークが生じていました。本論文では、UniParserを提案します。これは、インスタンスレベルとカテゴリーレベルの表現を3つの重要な側面で統合します:1) 我々は統一された相関表現学習手法を提案し、ネットワークがコサイン空間内でインスタンスとカテゴリー特徴を学習できるようにします;2) インスタンスとカテゴリー特徴を均質なラベルおよび補助損失を使用して監督しながら、各モジュールの出力をピクセルレベルのセグメンテーション結果として統一します;3) インスタンスとカテゴリー表現を融合するための共同最適化手順を設計します。インスタンスレベルとカテゴリーレベルの出力を統合することにより、UniParserは手動で設計された後処理技術を回避し、最先端の方法を超える性能を達成しました。MHPv2.0では49.3% AP、CIHPでは60.4% APという結果を得ています。我々は将来の研究を促進するためにソースコード、事前学習済みモデル、およびオンラインデモを公開します。