HyperAIHyperAI
vor 4 Monaten

3D-Handform und -Pose aus Bildern im Freien

Adnane Boukhayma; Rodrigo de Bem; Philip H.S. Torr
3D-Handform und -Pose aus Bildern im Freien
Abstract

In dieser Arbeit präsentieren wir die erste von Anfang bis Ende auf tiefem Lernen basierende Methode, die sowohl die 3D-Handform als auch die -Position aus RGB-Bildern im Freien vorhersagt. Unser Netzwerk besteht aus der Verkettung eines tiefen Faltungsencoders und eines festgelegten modellbasierten Decoders. Gegeben ein Eingangsbild und optional 2D-Gelenkaufspürungen, die von einem unabhängigen CNN erhalten wurden, prognostiziert der Encoder eine Reihe von Hand- und Sichtparametern. Der Decoder hat zwei Komponenten: Ein vorausberechnetes artikuliertes Gitterverformungsmodell für Hände, das aus den Handparametern ein 3D-Gitter generiert, und ein durch die Sichtparameter gesteuertes Reprojektionsmodul, das die generierte Hand in das Bildbereich projiziert. Wir zeigen, dass die Verwendung des in dem Handmodell kodierten Wissens über Form und Position innerhalb eines tiefen Lernrahmens zu Spitzenleistungen bei der Vorhersage von 3D-Positionen aus Bildern auf Standardbenchmarks führt und geometrisch gültige und plausibele 3D-Rekonstruktionen erzeugt. Zudem demonstrieren wir, dass das Training mit schwacher Überwachung in Form von 2D-Gelenkanotations auf Datensätzen von Bildern im Freien in Kombination mit vollständiger Überwachung in Form von 3D-Gelenkanotations auf begrenzt verfügbaren Datensätzen eine gute Generalisierung bei der Vorhersage von 3D-Form und -Position auf Bildern im Freien ermöglicht.