HyperAIHyperAI

Command Palette

Search for a command to run...

Multi-View Matching (MVM): Förderung des Lernens zur 3D-Gestenerkennung mehrerer Personen mit aktionsfrozenen Personen-Videos

Yeji Shen C.-C. Jay Kuo

Zusammenfassung

Um das anspruchsvolle Problem der Mehrpersonen-3D-Pose-Schätzung aus einer einzigen Bildaufnahme anzugehen, stellen wir in dieser Arbeit eine Multi-View-Matching-(MVM)-Methode vor. Die MVM-Methode generiert zuverlässige 3D-Human-Posen anhand eines großskaligen Videodatensatzes namens Mannequin-Datensatz, der handlungsstarre Personen enthält, die Puppen nachahmen. Aufgrund einer großen Menge an im Wild (in-the-wild) aufgenommenem Videomaterial, das automatisch durch die MVM-Methode mit 3D-Labeln versehen wurde, können wir ein neuronales Netzwerk trainieren, das eine einzelne Bildaufnahme als Eingabe verwendet, um Mehrpersonen-3D-Posen zu schätzen. Die zentrale Technologie der MVM beruht auf einer effektiven Ausrichtung von 2D-Posen, die aus mehreren Ansichten einer statischen Szene gewonnen werden und starke geometrische Einschränkungen aufweisen. Unser Ziel ist es, die gegenseitige Konsistenz der in mehreren Bildern geschätzten 2D-Posen zu maximieren, wobei sowohl geometrische Einschränkungen als auch optische Ähnlichkeiten gleichzeitig berücksichtigt werden. Um die Wirksamkeit der durch die MVM-Methode bereitgestellten 3D-Überwachung zu demonstrieren, führen wir Experimente auf den Datensätzen 3DPW und MSCOCO durch und zeigen, dass unsere vorgeschlagene Lösung die derzeit beste Leistung erzielt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp