Instanzbasierte menschliche Parsing durch Part-Grouping-Netzwerk

Die Instanzbasierte Analyse von Menschen in realen Szenarien ist aufgrund des Mangels an ausreichenden Datenressourcen und der technischen Schwierigkeit, mehrere Instanzen in einem Durchgang zu analysieren, noch immer wenig erforscht. Mehrere verwandte Arbeiten folgen dem Pipeline „Parsing durch Detektion“, die stark auf separat trainierten Detektionsmodellen basiert, um Instanzen zu lokalisieren und anschließend die menschliche Analyse für jede Instanz sequentiell durchzuführen. Dennoch führen zwei unterschiedliche Optimierungsziele der Detektion und des Parsings zu suboptimalen Repräsentationslernprozessen und Fehlersammlung für die endgültigen Ergebnisse. In dieser Arbeit machen wir den ersten Versuch, ein detektionsfreies Part Grouping Network (PGN) zu erforschen, das es effizient ermöglicht, mehrere Personen in einem Bild in einem einzigen Durchgang zu analysieren. Unser PGN reformuliert die instanzbasierte Analyse von Menschen als zwei parallele Teilprobleme, die gemeinsam gelernt und gegenseitig verfeinert werden können durch ein einheitliches Netzwerk: 1) semantisches Segmentieren von Körperteilen zur Zuordnung jedes Pixels zu einem menschlichen Körperteil (z.B., Gesicht, Arme); 2) instanzbewusste Kantenerkennung zur Gruppierung semantischer Teile in einzelne Personinstanzen. Dadurch wird die geteilte Zwischendarstellung mit der Fähigkeit ausgestattet, sowohl feingranulare Teile zu charakterisieren als auch die Zugehörigkeit jedes Teils zu einer bestimmten Instanz abzuleiten. Schließlich wird während der Inferenz ein einfacher Prozess zur Instanzpartitionierung angewendet, um die endgültigen Ergebnisse zu erhalten. Wir haben Experimente am PASCAL-Person-Part-Datensatz durchgeführt und unser PGN übertrifft alle bisherigen Methoden. Darüber hinaus zeigen wir seine Überlegenheit an einem neu gesammelten Datensatz zur Mehrpersonenanalyse (CIHP), der 38.280 vielfältige Bilder enthält und damit der größte Datensatz bislang ist. Dieser kann fortgeschrittene menschliche Analysen erleichtern. Der CIHP-Benchmark und unser Quellcode sind unter http://sysu-hcp.net/lip/ verfügbar.