Instanzbewusste kontrastive Lernmethode für die Rekonstruktion occludierter menschlicher Meshes

In diesem Paper wird eine einfache, jedoch effektive Methode zur occlusion-robusten 3D-Menschen-Mesh-Rekonstruktion aus einer einzigen Bildaufnahme vorgestellt. Obwohl zahlreiche jüngere Studien erhebliche Fortschritte bei der Rekonstruktion von Menschen-Meshes gezeigt haben, bleibt die Generierung genauer Meshes bei Personen-zu-Personen-Überlappungen weiterhin herausfordernd, da die Zuordnung einzelner Körperteile unsicher ist. Um dieses Problem anzugehen, schlagen wir ein instanzbewusstes kontrastives Lernverfahren vor. Konkret werden Gelenk-Features, die dem Zielmenschen zugehörig sind, so trainiert, dass sie nahe an einem Anchor-Feature liegen (d. h. einem Feature, das aus der zentralen Körperposition extrahiert wurde). Gleichzeitig werden die Anchor-Features verschiedener menschlicher Instanzen voneinander entfernt, sodass die Gelenk-Features jeder Person klar von denen anderer Personen unterschieden werden können. Durch die Interpretation der Gelenk-Zugehörigkeit basierend auf diesem kontrastiven Lernansatz versteht die vorgeschlagene Methode leicht die räumliche Belegung der Körperteile für jede Person in einem gegebenen Bild, wodurch zuverlässige Menschen-Meshes auch bei stark überlappenden Szenen mehrerer Personen rekonstruiert werden können. Experimentelle Ergebnisse auf Benchmark-Datensätzen belegen die Robustheit des vorgeschlagenen Ansatzes gegenüber früheren Methoden unter Personen-zu-Personen-Überlappungen. Der Quellcode und die Modelle sind öffentlich verfügbar unter: https://github.com/DCVL-3D/InstanceHMR_release.