HyperAIHyperAI
vor 2 Monaten

Unüberwachte Kreuzmodalausrichtung für die Mehrpersonen-3D-Pose-Schätzung

Jogendra Nath Kundu; Ambareesh Revanur; Govind Vitthal Waghmare; Rahul Mysore Venkatesh; R. Venkatesh Babu
Unüberwachte Kreuzmodalausrichtung für die Mehrpersonen-3D-Pose-Schätzung
Abstract

Wir präsentieren ein bereitstellungsfreundliches, schnelles Bottom-Up-Framework für die 3D-Pose-Schätzung von mehreren Personen. Wir verwenden eine neuartige neuronale Darstellung der 3D-Pose von mehreren Personen, die die Position der Personinstanzen mit ihren entsprechenden 3D-Pose-Darstellungen vereint. Dies wird durch das Lernen einer generativen Pose-Einbettung realisiert, die nicht nur plausible 3D-Pose-Vorhersagen gewährleistet, sondern auch den üblichen Keypoint-Gruppierungsprozess eliminiert, wie er in früheren Bottom-Up-Ansätzen angewendet wurde. Des Weiteren schlagen wir ein praktisches Bereitstellungsparadigma vor, bei dem keine gepaarten 2D- oder 3D-Pose-Annotationen verfügbar sind. In Abwesenheit jeglicher gepaarter Überwachung nutzen wir ein gefrorenes Netzwerk als Lehrmodell, das auf einer Nebenaufgabe der 2D-Pose-Schätzung von mehreren Personen trainiert wurde. Wir formulieren das Lernen als ein Problem der Modalitätsübereinstimmung und schlagen Trainingsziele vor, um einen gemeinsamen latente Raum zwischen zwei verschiedenen Modalitäten zu realisieren. Unser Ziel ist es, die Fähigkeit des Modells zu verbessern, über den begrenzten Lehrnetzwerkausgang hinauszugehen, indem wir die latente-zu-3D-Pose-Abbildung mittels künstlich synthetisierter Multi-Personen-3D-Szenenproben bereichern. Unser Ansatz verallgemeinert nicht nur auf Freiwildbilder (in-the-wild images), sondern bietet auch einen überlegenen Kompromiss zwischen Geschwindigkeit und Leistung im Vergleich zu früheren Top-Down-Ansätzen. Unter konsistenten Überwachungsstufen erreicht unser Ansatz zudem den aktuellen Stand der Technik (state-of-the-art) in der Multi-Personen-3D-Pose-Schätzung unter Bottom-Up-Ansätzen.

Unüberwachte Kreuzmodalausrichtung für die Mehrpersonen-3D-Pose-Schätzung | Neueste Forschungsarbeiten | HyperAI