Neuüberlegung der Pose-Schätzung in Menschenmengen: Überwindung des Detektions-Informationenflaschenhalses und der Mehrdeutigkeit

Häufige Interaktionen zwischen Individuen stellen eine grundlegende Herausforderung für Pose-Schätzalgorithmen dar. Aktuelle Pipelines verwenden entweder einen Objekterkennungsdetektor in Verbindung mit einem Pose-Schätzer (Top-Down-Ansatz) oder lokalisieren zunächst alle Körperteile und verknüpfen diese anschließend, um die Pose der Individuen vorherzusagen (Bottom-Up-Ansatz). Allerdings sind Top-Down-Methoden bei überlappenden Individuen aufgrund von engen Interaktionen schlecht definiert, während Bottom-Up-Methoden oft fälschlicherweise Verbindungen zu entfernten Körperteilen herstellen. Daher schlagen wir eine neue Pipeline vor, die als Bottom-Up bedingte Top-Down-Pose-Schätzung (BUCTD) bezeichnet wird und die Stärken von Bottom-Up- und Top-Down-Methoden kombiniert. Insbesondere schlagen wir vor, ein Bottom-Up-Modell als Detektor zu verwenden, das neben einer geschätzten Begrenzungsbox auch eine Pose-Vorschlag liefert, der als Bedingung an ein aufmerksamkeitsbasiertes Top-Down-Modell weitergegeben wird. Wir demonstrieren die Leistungsfähigkeit und Effizienz unseres Ansatzes anhand von Benchmarks zur Pose-Schätzung von Tieren und Menschen. Auf CrowdPose und OCHuman übertreffen wir die bisherigen Stand-von-die-Kunst-Modelle erheblich. Wir erreichen 78,5 AP auf CrowdPose und 48,5 AP auf OCHuman, was jeweils eine Verbesserung von 8,6 % und 7,8 % gegenüber dem bisherigen Stand der Technik darstellt. Darüber hinaus zeigen wir, dass unsere Methode die Leistungsfähigkeit bei Multi-Tier-Benchmarks mit Fischen und Affen stark verbessert. Der Quellcode ist unter https://github.com/amathislab/BUCTD verfügbar.