Personenanalyse: Verbundnetzwerk für Körperteilanalyse und Pose-Schätzung sowie ein neuer Benchmark

Die Analyse von Menschen und die Schätzung ihrer Pose haben aufgrund ihrer erheblichen Anwendungspotenziale in letzter Zeit großes Interesse gefunden. Allerdings sind die vorhandenen Datensätze in Bezug auf die Anzahl der Bilder und Annotationen begrenzt und fehlen vielfältige menschliche Erscheinungen sowie Herausforderungsfälle in unbeschränkten Umgebungen. In dieser Arbeit stellen wir einen neuen Benchmark namens "Look into Person (LIP)" vor, der einen bedeutenden Fortschritt in puncto Skalierbarkeit, Vielfalt und Schwierigkeit darstellt, was für zukünftige Entwicklungen im Bereich der menschenzentrierten Analyse entscheidend ist. Dieser umfassende Datensatz enthält über 50.000 sorgfältig annotierte Bilder mit 19 semantischen Körperteilbezeichnungen und 16 Körpergelenken, die aus einer breiten Palette von Blickwinkeln, Verdeckungen und Hintergrundkomplexitäten aufgenommen wurden. Mithilfe dieser reichhaltigen Annotationen führen wir eine detaillierte Analyse der führenden Ansätze zur Analyse von Menschen und zur Schätzung ihrer Pose durch, wodurch wir Einblicke in die Erfolge und Misserfolge dieser Methoden erhalten. Um den semantischen Zusammenhang dieser beiden Aufgaben weiter zu erforschen und zu nutzen, schlagen wir ein neues Netzwerk zur gemeinsamen Analyse von Menschen und Schätzung ihrer Pose vor, das effizientes Kontextmodellierung erkundet und gleichzeitig mit äußerst hoher Qualität Parsing und Pose vorhersagen kann. Darüber hinaus vereinfachen wir das Netzwerk, um die Analyse von Menschen durch eine neuartige struktursensible selbstüberwachte Lernmethode zu lösen, die menschliche Posestrukturen in die Parsing-Ergebnisse einbringt, ohne zusätzliche Überwachung zu benötigen. Der Datensatz, der Code und die Modelle sind unter http://www.sysu-hcp.net/lip/ verfügbar.