3DHR-Co: Ein kooperativer Framework zur Testzeit-Verfeinerung für die 3D-Ganzkörper-Rekonstruktion in realen Umgebungen

Das Feld der 3D-Menschkörper-Rekonstruktion (abgekürzt 3DHR), das parametrische Darstellungen von Pose und Form nutzt, hat in den letzten Jahren erhebliche Fortschritte gemacht. Dennoch stehen 3DHR-Techniken bei der Anwendung auf realweltliche, vielfältige Szenen – sogenannte „in-the-wild“-Daten – weiterhin vor Herausforderungen. Der Hauptgrund hierfür liegt darin, dass die Erstellung genauer 3D-Pose-Referenzwerte (Ground Truth, GT) für solche Szenen aufgrund verschiedener Faktoren weiterhin äußerst schwierig ist. Kürzlich vorgestellte Ansätze zur Testzeit-Verfeinerung (test-time refinement) in der 3DHR nutzen zunächst verfügbare 2D-Off-the-Shelf-Menschknoteninformationen, um die fehlende 3D-Supervision bei in-the-wild-Daten zu kompensieren. Wir beobachteten jedoch, dass zusätzliche 2D-Supervision allein bei gängigen 3DHR-Backbones zu Überanpassungsproblemen führen kann, was die Testzeit-Verfeinerung für 3DHR anscheinend unlösbar erscheinen lässt. Um dieser Herausforderung zu begegnen, schlagen wir eine Strategie vor, die die Testzeit-Verfeinerung in der 3DHR im Rahmen eines kooperativen Ansatzes ergänzt. Konkret wenden wir zunächst eine Voranpassungsmethode an, die verschiedene 3DHR-Modelle innerhalb eines einzigen Rahmens kooperativ nutzt, um ihre ursprünglichen Ausgaben direkt zu verbessern. Diese Methode wird anschließend mit bestehenden Ansätzen zur Testzeit-Anpassung kombiniert, wobei spezifische Einstellungen gewählt werden, um das Überanpassungsrisiko zu minimieren und die 3DHR-Leistung weiter zu steigern. Das gesamte Framework wird als 3DHR-Co bezeichnet. In experimentellen Evaluierungen zeigen wir, dass der vorgeschlagene Ansatz die Leistung gängiger klassischer 3DHR-Backbones signifikant verbessern kann – bis zu einer Reduktion des Pose-Fehlers um bis zu 34 mm – und diese Modelle damit in die Spitzengruppe der in-the-wild-Benchmark-Daten bringt. Diese Ergebnisse belegen, dass unser Ansatz das echte Potenzial dieser gängigen klassischen 3DHR-Backbones erschließt. Basierend auf diesen Erkenntnissen untersuchen wir zudem verschiedene Einstellungen im vorgeschlagenen Framework, um die Fähigkeiten unseres kooperativen Ansatzes im Bereich der 3DHR noch detaillierter zu erläutern.