Multi-View Matching (MVM): Förderung des Lernens zur 3D-Gestenerkennung mehrerer Personen mit aktionsfrozenen Personen-Videos

Um das anspruchsvolle Problem der Mehrpersonen-3D-Pose-Schätzung aus einer einzigen Bildaufnahme anzugehen, stellen wir in dieser Arbeit eine Multi-View-Matching-(MVM)-Methode vor. Die MVM-Methode generiert zuverlässige 3D-Human-Posen anhand eines großskaligen Videodatensatzes namens Mannequin-Datensatz, der handlungsstarre Personen enthält, die Puppen nachahmen. Aufgrund einer großen Menge an im Wild (in-the-wild) aufgenommenem Videomaterial, das automatisch durch die MVM-Methode mit 3D-Labeln versehen wurde, können wir ein neuronales Netzwerk trainieren, das eine einzelne Bildaufnahme als Eingabe verwendet, um Mehrpersonen-3D-Posen zu schätzen. Die zentrale Technologie der MVM beruht auf einer effektiven Ausrichtung von 2D-Posen, die aus mehreren Ansichten einer statischen Szene gewonnen werden und starke geometrische Einschränkungen aufweisen. Unser Ziel ist es, die gegenseitige Konsistenz der in mehreren Bildern geschätzten 2D-Posen zu maximieren, wobei sowohl geometrische Einschränkungen als auch optische Ähnlichkeiten gleichzeitig berücksichtigt werden. Um die Wirksamkeit der durch die MVM-Methode bereitgestellten 3D-Überwachung zu demonstrieren, führen wir Experimente auf den Datensätzen 3DPW und MSCOCO durch und zeigen, dass unsere vorgeschlagene Lösung die derzeit beste Leistung erzielt.