Einstufiges Mehrpersonen-Parsing mittels Punktsets und zentrumsbasierter Verschiebungen

Diese Arbeit untersucht das Problem der Mehrpersonensegmentierung. Bestehende Methoden, die entweder dem Top-Down- oder Bottom-Up-Zweistufenparadigma folgen, beinhalten in der Regel hohe Rechenkosten. Wir präsentieren stattdessen eine hochleistungsfähige Einstufige Mehrpersonensegmentierung (SMP) Deep-Learning-Architektur, die das Problem der Mehrpersonensegmentierung in zwei feingranulare Teilprobleme zerlegt, nämlich die Lokalisierung von Körpern und Körperteilen. SMP nutzt die Punkteigenschaften in den Schwerpunktspositionen, um deren Segmentierung zu erzielen, und generiert dann eine Reihe von Verschiebungen vom Schwerpunkt des menschlichen Körpers zu den Schwerpunkten der Körperteile, wodurch eine Zuordnung von Körpern und Teilen ohne Gruppierungsprozess durchgeführt werden kann. Innerhalb der SMP-Architektur schlagen wir ein Modul zur Verfeinerung und Erhaltung von Merkmalen (Refined Feature Retain module) vor, um globale Merkmale von Instanzen durch maskierte Aufmerksamkeit zu extrahieren, sowie ein Modul zur Wiederklassifizierung interessanter Masken (Mask of Interest Reclassify module), das als trainierbares Plug-in-Modul dient, um die Klassifikationsergebnisse mit der vorhergesagten Segmentierung zu verfeinern. Ausführliche Experimente auf dem MHPv2.0-Datensatz zeigen die beste Effektivität und Effizienz der vorgeschlagenen Methode; sie übertrifft den aktuellen Stand der Technik um 2,1 % im AP50p, 1,0 % im APvolp und 1,2 % im PCP50. Insbesondere benötigt die vorgeschlagene Methode weniger Trainingszyklen und verfügt über eine weniger komplexe Modellarchitektur. Wir werden unseren Quellcode, vortrainierte Modelle und Online-Demos veröffentlichen, um weitere Studien zu erleichtern.