HyperAIHyperAI

Command Palette

Search for a command to run...

3D-Mensch-Pose-Schätzung in Videos mit zeitlichen Faltungen und semi-überwachtem Training

Dario Pavllo Christoph Feichtenhofer David Grangier Michael Auli

Zusammenfassung

In dieser Arbeit zeigen wir, dass 3D-Posen in Videos mit einem voll konvolutionellen Modell effektiv geschätzt werden können, das auf verdünnten zeitlichen Konvolutionen über 2D-Schlüsselpunkte basiert. Wir stellen zudem die Rückprojektion vor, eine einfache und effektive semi-überwachte Trainingsmethode, die unlabeledes Videomaterial nutzt. Wir beginnen mit vorhergesagten 2D-Schlüsselpunkten für unlabeledes Video, schätzen dann die 3D-Posen und führen abschließend eine Rückprojektion zu den Eingabe-2D-Schlüsselpunkten durch. Im überwachten Szenario übertreffen unsere voll konvolutionellen Modelle das bisher beste Ergebnis aus der Literatur um 6 mm mittlerer pro-Gelenk Positionsfehler auf Human3.6M, was einer Fehlerreduzierung von 11 % entspricht. Das Modell zeigt außerdem erhebliche Verbesserungen auf HumanEva-I. Darüber hinaus zeigen Experimente mit der Rückprojektion, dass sie in semi-überwachten Szenarien, in denen labeledes Datenmaterial knapp ist, komfortabel die bisher besten Ergebnisse aus der Forschung übertrifft. Der Quellcode und die Modelle sind unter https://github.com/facebookresearch/VideoPose3D verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp