HigherHRNet: Skalenbewusstes Repräsentationslernen für die bottom-up Schätzung menschlicher Pose

Bottom-up Methoden zur menschlichen Pose-Schätzung haben Schwierigkeiten, die korrekte Pose für kleine Personen vorherzusagen, aufgrund der Herausforderungen bei der Skalenvielfalt. In dieser Arbeit stellen wir HigherHRNet vor: eine neuartige bottom-up Methode zur menschlichen Pose-Schätzung, die skalenbewusste Darstellungen durch Verwendung von hochaufgelösten Merkmalspyramiden lernt. Die vorgeschlagene Methode ist mit einer mehrskalenbasierten Überwachung zum Training und einer mehrskalenbasierten Aggregation für die Inferenz ausgestattet, wodurch sie in der Lage ist, die Herausforderung der Skalenvielfalt in bottom-up Mehrpersonen-Pose-Schätzungen zu bewältigen und Schlüsselpunkte präziser zu lokalisieren, insbesondere für kleine Personen. Die Merkmalspyramide in HigherHRNet besteht aus Merkmalskarten-Ausgaben des HRNet und aufgeführten höheraufgelösten Ausgaben durch eine transponierte Faltung (transposed convolution). HigherHRNet übertrifft die bisher beste bottom-up Methode um 2,5% AP für mittelgroße Personen im COCO test-dev-Datensatz, was ihre Effektivität bei der Bewältigung von Skalenvielfalt zeigt. Darüber hinaus erreicht HigherHRNet ohne Verfeinerung oder andere Nachbearbeitungstechniken ein neues Standesbeste-Ergebnis im COCO test-dev-Datensatz (70,5% AP), wodurch es alle existierenden bottom-up Methoden übertrifft. HigherHRNet übertreffen sogar alle top-down Methoden im CrowdPose-Test (67,6% AP), was seine Robustheit in dichten Szenen nahelegt. Der Code und die Modelle sind unter https://github.com/HRNet/Higher-HRNet-Human-Pose-Estimation verfügbar.