Command Palette
Search for a command to run...
Differentiable hierarchische Graph-Gruppierung für die Multi-Person-Pose-Schätzung
Differentiable hierarchische Graph-Gruppierung für die Multi-Person-Pose-Schätzung
Sheng Jin Wentao Liu Enze Xie Wenhai Wang Chen Qian Wanli Ouyang Ping Luo
Zusammenfassung
Die Schätzung der Pose mehrerer Personen ist herausfordernd, da sie gleichzeitig die Körperknotenpunkte mehrerer Personen lokalisiert. Bisherige Ansätze lassen sich in zwei Hauptströmungen einteilen: Top-down- und Bottom-up-Methoden. Top-down-Methoden lokalisieren die Knotenpunkte nach einer vorherigen Personen-Detektion, während Bottom-up-Methoden die Knotenpunkte direkt erkennen und anschließend clustern bzw. gruppieren, um sie verschiedenen Personen zuzuordnen. Diese Bottom-up-Ansätze sind in der Regel effizienter als ihre Top-down-Gegenstücke. Allerdings wird in bestehenden Bottom-up-Methoden die Knotenpunkt-Gruppierung üblicherweise unabhängig von der Knotenpunkt-Detektion gelöst, was die end-to-end-Trainierbarkeit erschwert und zu suboptimaler Leistung führt. In diesem Artikel untersuchen wir eine neue Perspektive für die Gruppierung menschlicher Körperteile und formulieren sie als ein Graph-Clustering-Problem neu. Insbesondere stellen wir eine neue, differenzierbare hierarchische Graph-Gruppierungsmethode (Hierarchical Graph Grouping, HGG) vor, die das Lernen der Graph-Gruppierung im Rahmen von Bottom-up-Methoden zur Schätzung mehrerer Personen-Pose ermöglicht. Zudem lässt sich HGG problemlos in etablierte Bottom-up-Methoden integrieren. Dabei werden menschliche Knotenpunkt-Kandidaten als Knoten in einem Graphen betrachtet, und die Gruppierung erfolgt in einem mehrschichtigen Graphen-Neural-Netzwerk-Modell. Die Module von HGG können end-to-end mit dem Knotenpunkt-Detektionsnetzwerk trainiert werden und ermöglichen eine hierarchische Supervision des Gruppierungsprozesses. Um die Unterscheidbarkeit der Clustering-Operation zu verbessern, führen wir eine Reihe von Edge-Discriminatoren und Makro-Knoten-Discriminatoren ein. Umfangreiche Experimente auf den Datensätzen COCO und OCHuman belegen, dass die vorgeschlagene Methode die Leistung von Bottom-up-Pose-Schätzungsmethoden signifikant verbessert.