InsPose: Instanzbewusste Netze für die Einphasen-Schätzung von Mehrpersonenpose

Die Schätzung mehrerer Personenpose ist eine ansprechende und herausfordernde Aufgabe. Bestehende Methoden basieren überwiegend auf zweistufigen Rahmenwerken, die entweder top-down- oder bottom-up-Methoden umfassen. Zwei-stufige Ansätze leiden entweder unter hohem rechnerischem Aufwand aufgrund zusätzlicher Personen-Detektoren oder müssen nach der Vorhersage aller instanzunabhängigen Keypoints heuristisch Keypoints gruppieren. Der einstufige Paradigma zielt darauf ab, die Pipeline der mehrpersonigen Pose-Schätzung zu vereinfachen und erhält zunehmend Aufmerksamkeit. Allerdings weisen aktuelle einstufige Methoden aufgrund der Schwierigkeit, verschiedene vollständige Körperpose aus einem einzigen Merkmalsvektor zu schätzen, eine geringe Leistung auf. Im Gegensatz zu früheren Lösungen mit komplexen heuristischen Designansätzen präsentieren wir eine einfache, aber effektive Lösung durch den Einsatz instanzbewusster dynamischer Netzwerke. Konkret schlagen wir ein instanzbewusstes Modul vor, das die Netzwerkparameter (teilweise) adaptiv für jede Instanz anpasst. Unsere Lösung erhöht signifikant die Kapazität und Anpassungsfähigkeit des Netzwerks zur Erkennung verschiedener Posen und bewahrt gleichzeitig eine kompakte end-to-end trainierbare Architektur. Umfangreiche Experimente auf dem MS-COCO-Datensatz zeigen, dass unsere Methode gegenüber bestehenden einstufigen Ansätzen erhebliche Verbesserungen erzielt und im Vergleich zu den aktuellen zweistufigen Ansätzen ein besseres Gleichgewicht zwischen Genauigkeit und Effizienz erreicht. Der Quellcode und die Modelle sind unter \url{https://github.com/hikvision-research/opera} verfügbar.