混雑したシーンにおける人間の理解:深層ネスト型敵対学習と多人間解析の新しいベンチマーク

検出、インスタンスセグメンテーション、ヒューマンパージングなどの知覚タスクにおいて顕著な進歩が見られるにもかかわらず、コンピュータは依然として混雑したシーンでの視覚的理解、例えばグループ行動分析、人物再識別、自動運転などにおいて満足のいく性能を発揮していません。この課題に対処するためには、多人数画像における意味情報と各インスタンス間の差異を包括的に認識するモデルが必要であり、最近ではこれを多人数パージングタスクと定義しています。本論文では、アルゴリズム開発と評価のために新しい大規模データベース「Multi-Human Parsing (MHP)」を提案し、混雑したシーンでのヒューマン理解の最先端技術を推進します。MHPには、25,403枚の詳細にアノテーションされた画像が含まれており、これらの画像には58種類の細かい意味カテゴリラベルが付けられており、1枚あたり2〜26人の人物が実世界のシーンで様々な視点、姿勢、遮蔽(occlusion)、相互作用(interactions)、背景(background)から撮影されています。さらに、我々は多人数パージング用の新しい深層学習モデルであるネスト型敵対ネットワーク(Nested Adversarial Network: NAN)を提案します。NANは3つの生成敵対ネットワーク(Generative Adversarial Network: GAN)のようなサブネットから構成されており、それぞれ意味的な注目度予測(semantic saliency prediction)、インスタンス非依存解析(instance-agnostic parsing)、インスタンス依存クラスタリング(instance-aware clustering)を行います。これらのサブネットはネスト構造を形成しており、エンドツーエンドで共同学習するために慎重に設計されています。NANは我々のMHPデータセットだけでなく他のいくつかのデータセットでも既存の最先端ソリューションを一貫して上回っており、多人数パージングに関する今後の研究を促進する強力な基線となっています。