Die Vorhersage der Kameraperspektive verbessert die Generalisierbarkeit über Datensätze hinweg für die 3D-Menschenpose-Schätzung

Die monokulare Schätzung der 3D-Gestalt menschlicher Körper hat aufgrund der Verfügbarkeit großer Ground-Truth-Motion-Capture-Datensätze an Aufmerksamkeit gewonnen. Allerdings ist die Vielfalt der verfügbaren Trainingsdaten begrenzt, und es ist unklar, inwieweit Methoden jenseits der spezifischen Datensätze, auf denen sie trainiert wurden, generalisieren. In dieser Arbeit führen wir eine systematische Untersuchung der Vielfalt und der Verzerrungen innerhalb bestimmter Datensätze durch und analysieren deren Einfluss auf die Cross-Dataset-Generalisierung über eine Sammlung von fünf Pose-Datensätzen. Wir konzentrieren uns speziell auf systematische Unterschiede in der Verteilung der Kameraperspektiven relativ zu einem körperzentrierten Koordinatensystem. Aufgrund dieser Beobachtung schlagen wir eine ergänzende Aufgabe vor: neben der Pose-Schätzung wird auch die Kameraperspektive vorhergesagt. Wir stellen fest, dass Modelle, die gemeinsam die Kameraperspektive und die Pose vorhersagen, eine signifikant verbesserte Generalisierung über Datensätze hinweg zeigen.