Der Teufel steckt im Detail: Auf dem Weg zu genauer Einzel- und Mehrfach-Parsing von Menschen

Die menschliche Bildanalyse (Human Parsing) hat aufgrund ihrer breiten Anwendungsmöglichkeiten erhebliches Interesse gefunden. Dennoch ist es bislang unklar, wie ein genaues System für die menschliche Bildanalyse effizient und elegant entwickelt werden kann. In dieser Arbeit identifizieren wir mehrere nützliche Eigenschaften, darunter die Merkmalsauflösung, globale Kontextinformationen und Kantendetails, und führen eine sorgfältige Analyse durch, um zu zeigen, wie diese Eigenschaften zur Verbesserung der menschlichen Bildanalyse genutzt werden können. Die Vorteile dieser nützlichen Eigenschaften führen letztlich zu einem einfachen, aber effektiven Rahmenwerk für die Einzelbildanalyse, dem Context Embedding with Edge Perceiving (CE2P). Unser CE2P ist von Anfang bis Ende trainierbar und kann leicht angepasst werden, um mehrere menschliche Bildanalysen durchzuführen. Dank der Überlegenheit von CE2P erreichten wir den ersten Platz in allen drei Benchmarks für die menschliche Bildanalyse. Ohne zusätzliche Verzierungen erreichten wir 56,50 % (mIoU), 45,31 % (mittleres (AP^r)) und 33,34 % ((AP^p_{0,5})) in LIP, CIHP und MHP v2.0, was jeweils über 2,06 %, 3,81 % und 1,87 % besser als der aktuelle Stand der Technik ist. Wir hoffen, dass unser CE2P als solide Grundlage dienen wird und zukünftige Forschungen in der Einzel- und Mehrfachbildanalyse erleichtern wird. Der Quellcode ist unter \url{https://github.com/liutinglt/CE2P} verfügbar.