Wissen aus NRSfM für schwach überwachtes 3D-Pose-Lernen destillieren

Wir schlagen vor, einen 3D-Pose-Schätzer durch das Wissen aus der Nichtstarren Struktur aus Bewegung (Non-Rigid Structure from Motion, NRSfM) abzuleiten. Unser Verfahren verwendet ausschließlich 2D-Landmark-Annotationen. Es werden keine 3D-Daten, mehrfach-sichtbasierten/zeitlichen Aufnahmen oder objektspezifischen Vorkenntnisse benötigt. Dies löst die Datenflaschenhalsproblematik, die eine der Hauptbedenken bei überwachten Methoden ist. Die Herausforderung bei der Verwendung von NRSfM als Lehrer besteht darin, dass diese oft eine schlechte Tiefenrekonstruktion erzielen, wenn die 2D-Projektionen starke Ambiguität aufweisen. Die direkte Nutzung dieser fehlerhaften Tiefendaten als harte Ziele würde den Schülern negativ zusetzen. Stattdessen schlagen wir einen neuen Verlustfunktion vor, die die Tiefenschätzung mit der Kostenfunktion verbindet, die in NRSfM verwendet wird. Dies gibt dem Schülern-Pose-Schätzer die Freiheit, den Tiefenfehler durch Assoziation mit Bildmerkmalen zu reduzieren. Anhand des H3.6M-Datensatzes validiert, erreicht unser gelerntes 3D-Pose-Schätznetzwerk eine genauere Rekonstruktion im Vergleich zu NRSfM-Methoden. Es übertrifft auch andere schwach überwachte Methoden, obwohl es signifikant weniger Überwachung nutzt.