Gierige, offset-gesteuerte Gruppierung von Schlüsselpunkten für die menschliche Pose-Schätzung

Wir schlagen einen einfachen, aber zuverlässigen bottom-up Ansatz vor, der ein gutes Gleichgewicht zwischen Genauigkeit und Effizienz für das Problem der Mehrpersonen-Pose-Schätzung bietet. Gegeben ein Bild verwenden wir ein Hourglass-Netzwerk, um alle Schlüsselpunkte verschiedener Personen unabhängig voneinander sowie die leitenden Verschiebungen zu schätzen, die benachbarte Schlüsselpunkte derselben Personen verbinden. Anschließend gruppieren wir die Kandidatenschlüsselpunkte geizig zu mehreren menschlichen Positonen (sofern vorhanden), wobei wir die vorhergesagten leitenden Verschiebungen nutzen. Diesen Prozess bezeichnen wir als greedy offset-guided keypoint grouping (GOG). Darüber hinaus überprüfen wir erneut die Encoding-Decoder-Methode zur Darstellung der Koordinaten mehrerer Personen und offenbaren einige wichtige Fakten, die die Genauigkeit beeinflussen. Experimente haben die deutlichen Leistungsverbesserungen durch die eingeführten Komponenten nachgewiesen. Unser Ansatz erreicht unter fairen Bedingungen eine Leistung, die mit dem Stand der Technik auf dem anspruchsvollen COCO-Datensatz vergleichbar ist. Der Quellcode und unser vortrainiertes Modell sind öffentlich online verfügbar.