Réseau Adversarial Macro-Micro pour le Parsing Humain

Dans le domaine de l'analyse humaine, la perte de classification pixel par pixel présente des inconvénients tels qu'une incohérence locale de bas niveau et une incohérence sémantique de haut niveau. L'introduction d'un réseau antagoniste vise à résoudre ces deux problèmes à l'aide d'un seul discriminateur. Cependant, les deux types d'incohérences dans l'analyse sont générés par des mécanismes distincts, ce qui rend difficile pour un seul discriminateur de les résoudre simultanément. Pour remédier à ces deux types d'incohérences, cet article propose le réseau antagoniste Macro-Micro (MMAN). Ce réseau comporte deux discriminateurs. Le premier, appelé Macro D, agit sur la carte d'étiquettes à faible résolution et pénalise l'incohérence sémantique, par exemple les parties du corps mal positionnées. Le second, Micro D, se concentre sur plusieurs patchs de la carte d'étiquettes à haute résolution afin de corriger l'incohérence locale, comme la floue ou les trous.Comparativement aux réseaux antagonistes traditionnels, MMAN non seulement impose explicitement la cohérence locale et sémantique, mais évite également le problème de mauvaise convergence des réseaux antagonistes lorsqu'ils traitent des images à haute résolution. Dans nos expériences, nous avons validé que les deux discriminateurs sont complémentaires pour améliorer la précision de l'analyse humaine. Le cadre proposé est capable de produire des performances d'analyse compétitives comparées aux méthodes les plus avancées actuellement disponibles, avec un mIoU (mean Intersection over Union) de 46,81 % sur LIP (Look Into Person) et 59,91 % sur PASCAL-Person-Part. Sur un ensemble de données relativement petit PPSS (Person Part Segmentation Small), notre modèle pré-entraîné montre une capacité généralisatrice impressionnante. Le code source est disponible publiquement sur https://github.com/RoyalVane/MMAN.