HyperAIHyperAI
vor 2 Monaten

Monokulare 3D-Mehrpersonen-Pose-Schätzung durch Integration von Top-Down- und Bottom-Up-Netzwerken

Cheng, Yu ; Wang, Bo ; Yang, Bo ; Tan, Robby T.
Monokulare 3D-Mehrpersonen-Pose-Schätzung durch Integration von Top-Down- und Bottom-Up-Netzwerken
Abstract

Bei der monokularen Video-3D-Mehrpersonen-Pose-Schätzung können Interpersonelle Verdeckungen und enge Interaktionen zu fehlerhafter Personenerkennung und nicht verlässlicher Zuordnung von Körperteilen führen. Bestehende Top-Down-Methoden basieren auf der Personenerkennung und leiden daher unter diesen Problemen. Bestehende Bottom-Up-Methoden verzichten auf die Personenerkennung, verarbeiten jedoch alle Personen gleichzeitig und in derselben Skala, was sie anfällig für Variationen in der Skala mehrerer Personen macht. Um diese Herausforderungen zu bewältigen, schlagen wir die Integration von Top-Down- und Bottom-Up-Ansätzen vor, um ihre Stärken zu nutzen. Unser Top-Down-Netzwerk schätzt Körperteile aller Personen in einem Bildausschnitt, anstatt nur einer, was es gegenüber möglichen fehlerhaften Begrenzungsrahmen robuster macht. Unser Bottom-Up-Netzwerk integriert personenerkennungs-basierte normierte Heatmaps, wodurch das Netzwerk bei der Bewältigung von Skalenvariationen robuster wird. Schließlich werden die geschätzten 3D-Posen aus den Top-Down- und Bottom-Up-Netzwerken in unser Integrationsnetzwerk eingespeist, um die endgültigen 3D-Posen zu erzeugen. Neben der Integration von Top-Down- und Bottom-Up-Netzwerken unterscheidet sich unser Ansatz von existierenden Pose-Diskriminatoren, die ausschließlich für einzelne Personen entwickelt wurden und daher natürliche interpersonelle Interaktionen nicht bewerten können. Wir schlagen einen Diskriminator für zwei Personenpose vor, der natürliche Interaktionen zwischen zwei Personen erzwingt. Zuletzt wenden wir eine semiaufgeklärte Methode an, um den Mangel an 3D-Ground-Truth-Daten zu überwinden. Unsere quantitativen und qualitativen Auswertungen zeigen die Effektivität unserer Methode im Vergleich zu den Stand-of-the-Art-Baselines.

Monokulare 3D-Mehrpersonen-Pose-Schätzung durch Integration von Top-Down- und Bottom-Up-Netzwerken | Neueste Forschungsarbeiten | HyperAI