HyperAIHyperAI
il y a 2 mois

Compréhension des humains dans les scènes bondées : Apprentissage profond nested adversarial et un nouveau benchmark pour le parsing multi-humain

Zhao, Jian ; Li, Jianshu ; Cheng, Yu ; Zhou, Li ; Sim, Terence ; Yan, Shuicheng ; Feng, Jiashi
Compréhension des humains dans les scènes bondées : Apprentissage profond nested adversarial et un nouveau benchmark pour le parsing multi-humain
Résumé

Malgré les progrès notables réalisés dans les tâches perceptuelles telles que la détection, le segmentage d'instances et l'analyse des humains, les ordinateurs continuent de performer de manière insatisfaisante pour comprendre visuellement les humains dans des scènes bondées, comme l'analyse du comportement de groupe, la ré-identification des personnes et la conduite autonome, entre autres. Pour y remédier, les modèles doivent percevoir de manière exhaustive l'information sémantique et les différences entre les instances dans une image à plusieurs humains, ce qui est récemment défini comme la tâche de segmentage multi-humain (multi-human parsing). Dans cet article, nous présentons une nouvelle base de données à grande échelle « Multi-Human Parsing (MHP) » pour le développement et l'évaluation d'algorithmes, et nous faisons avancer l'état de l'art en matière de compréhension des humains dans des scènes bondées. MHP contient 25 403 images soigneusement annotées avec 58 étiquettes de catégories sémantiques fines, impliquant 2 à 26 personnes par image et capturées dans des scènes réelles sous différents angles de vue, postures, occultations, interactions et arrière-plans. Nous proposons également un nouveau modèle profond basé sur un réseau adversarial imbriqué (Nested Adversarial Network - NAN) pour le segmentage multi-humain. NAN se compose de trois sous-réseaux ressemblant à des GANs (Generative Adversarial Networks), chacun effectuant respectivement la prédiction de salience sémantique, le segmentage indifférent aux instances (instance-agnostic parsing) et le regroupement conscient des instances (instance-aware clustering). Ces sous-réseaux forment une structure imbriquée et sont soigneusement conçus pour apprendre conjointement d'une manière bout-en-bout. NAN surpasse constamment les solutions existantes à l'état de l'art sur notre MHP ainsi que sur plusieurs autres jeux de données, et sert de solide point de référence pour stimuler les futures recherches en segmentage multi-humain.