HyperAIHyperAI
vor 7 Tagen

Multi-Instance Pose Networks: Eine Neubewertung der Top-Down-Pose-Schätzung

Rawal Khirodkar, Visesh Chari, Amit Agrawal, Ambrish Tyagi
Multi-Instance Pose Networks: Eine Neubewertung der Top-Down-Pose-Schätzung
Abstract

Eine zentrale Annahme von top-down-Ansätzen zur menschlichen Pose-Schätzung ist die Voraussetzung, dass innerhalb des Eingabebounding Boxes jeweils nur eine Person/Instanz vorhanden ist. Dies führt häufig zu Fehlern in überfüllten Szenen mit Verdeckungen. Wir schlagen eine neue Lösung vor, um die Beschränkungen dieser grundlegenden Annahme zu überwinden. Unser Multi-Instance Pose Network (MIPNet) ermöglicht die Vorhersage mehrerer 2D-Pose-Instanzen innerhalb eines gegebenen Bounding Boxes. Wir führen einen Multi-Instance Modulation Block (MIMB) ein, der die kanalweisen Merkmalsantworten für jede Instanz adaptiv modulieren kann und dabei parameter-effizient ist. Die Wirksamkeit unseres Ansatzes wird anhand der Evaluation auf den Datensätzen COCO, CrowdPose und OCHuman nachgewiesen. Insbesondere erreichen wir eine AP von 70,0 auf dem CrowdPose-Testset und 42,5 auf dem OCHuman-Testset, was eine signifikante Verbesserung um 2,4 AP und 6,5 AP gegenüber dem Stand der Technik darstellt. Bei Verwendung von Ground-Truth-Bounding Boxes zur Inferenz erzielt MIPNet gegenüber HRNet eine Verbesserung um 0,7 AP auf COCO, 0,9 AP auf CrowdPose und 9,1 AP auf den Validierungssets von OCHuman. Interessanterweise verschlechtert sich die Leistung von HRNet auf OCHuman bei Verwendung weniger, aber hochzuverlässiger Bounding Boxes um 5 AP, während MIPNet für dieselben Eingaben eine relativ stabile Leistung beibehält (Abfall um lediglich 1 AP).

Multi-Instance Pose Networks: Eine Neubewertung der Top-Down-Pose-Schätzung | Neueste Forschungsarbeiten | HyperAI