HyperAIHyperAI
vor 2 Monaten

Verstehen von Menschen in dichten Szenen: Tiefes verschachteltes adversariales Lernen und ein neuer Benchmark für die Analyse mehrerer Personen

Zhao, Jian ; Li, Jianshu ; Cheng, Yu ; Zhou, Li ; Sim, Terence ; Yan, Shuicheng ; Feng, Jiashi
Verstehen von Menschen in dichten Szenen: Tiefes verschachteltes adversariales Lernen und ein neuer Benchmark für die Analyse mehrerer Personen
Abstract

Trotz der bemerkenswerten Fortschritte bei wahrnehmungsbasierten Aufgaben wie Detektion, Instanzsegmentierung und menschlicher Analyse (human parsing), leisten Computer bei der visuellen Verständigung von Menschen in dichten Szenen, wie z.B. Gruppenverhaltensanalyse, Person-Wiedererkennung (person re-identification) und autonomen Fahrzeugen, noch unbefriedigende Leistungen. Hierfür müssen Modelle die semantische Information und die Unterschiede zwischen den Instanzen in einem Bild mit mehreren Personen umfassend erfassen, was kürzlich als die Aufgabe der Mehr-Personen-Analyse (multi-human parsing) definiert wurde. In dieser Arbeit stellen wir eine neue umfangreiche Datenbank „Multi-Human Parsing (MHP)“ für die Entwicklung und Bewertung von Algorithmen vor und bringen den Stand der Technik bei der Verständigung von Menschen in dichten Szenen weiter voran. MHP enthält 25.403 sorgfältig annotierte Bilder mit 58 feingranularen semantischen Kategorielabels, wobei pro Bild 2 bis 26 Personen abgebildet sind und in realen Szenen aus verschiedenen Perspektiven, Haltungen, Verschleierungen (occlusions), Interaktionen und Hintergründen aufgenommen wurden. Wir schlagen außerdem ein neues tiefes verschachteltes adversariales Netzwerkmodell (Nested Adversarial Network, NAN) für die Mehr-Personen-Analyse vor. NAN besteht aus drei Generator-Adversarials-Netzwerken (Generative Adversarial Networks, GAN)-ähnlichen Unter-Netzwerken, die jeweils semantische Wichtigkeitsvorhersage (semantic saliency prediction), instanzunabhängige Analyse (instance-agnostic parsing) und instanzbezogene Clustering-Aufgaben durchführen. Diese Unter-Netzwerke bilden eine verschachtelte Struktur und sind sorgfältig konzipiert, um gemeinsam in einer end-to-end Weise zu lernen. NAN übertrifft konsistent bestehende state-of-the-art Lösungen sowohl auf unserer MHP-Datenbank als auch auf mehreren anderen Datensätzen und dient als robuste Baseline zur Förderung zukünftiger Forschung im Bereich der Mehr-Personen-Analyse.