Differentiable hierarchische Graph-Gruppierung für die Multi-Person-Pose-Schätzung

Die Schätzung der Pose mehrerer Personen ist herausfordernd, da sie gleichzeitig die Körperknotenpunkte mehrerer Personen lokalisiert. Bisherige Ansätze lassen sich in zwei Hauptströmungen einteilen: Top-down- und Bottom-up-Methoden. Top-down-Methoden lokalisieren die Knotenpunkte nach einer vorherigen Personen-Detektion, während Bottom-up-Methoden die Knotenpunkte direkt erkennen und anschließend clustern bzw. gruppieren, um sie verschiedenen Personen zuzuordnen. Diese Bottom-up-Ansätze sind in der Regel effizienter als ihre Top-down-Gegenstücke. Allerdings wird in bestehenden Bottom-up-Methoden die Knotenpunkt-Gruppierung üblicherweise unabhängig von der Knotenpunkt-Detektion gelöst, was die end-to-end-Trainierbarkeit erschwert und zu suboptimaler Leistung führt. In diesem Artikel untersuchen wir eine neue Perspektive für die Gruppierung menschlicher Körperteile und formulieren sie als ein Graph-Clustering-Problem neu. Insbesondere stellen wir eine neue, differenzierbare hierarchische Graph-Gruppierungsmethode (Hierarchical Graph Grouping, HGG) vor, die das Lernen der Graph-Gruppierung im Rahmen von Bottom-up-Methoden zur Schätzung mehrerer Personen-Pose ermöglicht. Zudem lässt sich HGG problemlos in etablierte Bottom-up-Methoden integrieren. Dabei werden menschliche Knotenpunkt-Kandidaten als Knoten in einem Graphen betrachtet, und die Gruppierung erfolgt in einem mehrschichtigen Graphen-Neural-Netzwerk-Modell. Die Module von HGG können end-to-end mit dem Knotenpunkt-Detektionsnetzwerk trainiert werden und ermöglichen eine hierarchische Supervision des Gruppierungsprozesses. Um die Unterscheidbarkeit der Clustering-Operation zu verbessern, führen wir eine Reihe von Edge-Discriminatoren und Makro-Knoten-Discriminatoren ein. Umfangreiche Experimente auf den Datensätzen COCO und OCHuman belegen, dass die vorgeschlagene Methode die Leistung von Bottom-up-Pose-Schätzungsmethoden signifikant verbessert.