CLIFF: Die Übertragung von Ortsinformationen in vollständige Frames für die Schätzungen von menschlicher Haltung und Form

Top-down-Methoden dominieren das Feld der 3D-Schätzung von menschlicher Pose und Form, da sie von der menschlichen Detektion entkoppelt sind und den Forschern ermöglichen, sich auf das Kernproblem zu konzentrieren. Allerdings verwerfen sie in ihrem ersten Schritt, dem Cropping, die Ortsinformationen bereits am Anfang, was es ihnen unmöglich macht, die globale Rotation im ursprünglichen Kamerakoordinatensystem genau vorherzusagen. Um dieses Problem zu lösen, schlagen wir vor, die Ortsinformationen in vollen Bildern (CLIFF – Carry Location Information in Full Frames) in diese Aufgabe einzubeziehen. Insbesondere füttern wir CLIFF mit umfassenderen Merkmalen, indem wir die Merkmale des zugeschnittenen Bildes mit dessen Bounding-Box-Information kombinieren. Wir berechnen den 2D-Reprojektionsverlust unter Berücksichtigung eines breiteren Blicks auf das gesamte Bild, wobei wir einen Projektionsprozess durchführen, der dem Prozess ähnelt, wie eine Person im Bild projiziert wird. Durch die Fütterung und Überwachung mit global-ortsbewussten Informationen prognostiziert CLIFF direkt die globale Rotation zusammen mit genauereren Gliedmaßenpositionen. Darüber hinaus schlagen wir einen Pseudo-Ground-Truth-Annotator basierend auf CLIFF vor, der hochwertige 3D-Annotationen für freie 2D-Datensätze bereitstellt und entscheidende vollständige Überwachung für regressionsbasierte Methoden bietet. Ausführliche Experimente an bekannten Benchmarks zeigen, dass CLIFF erheblich besser als frühere Arbeiten abschneidet und den ersten Platz im AGORA-Leaderboard (SMPL-Algorithmen-Track) erreicht. Der Code und die Daten sind unter https://github.com/huawei-noah/noah-research/tree/master/CLIFF verfügbar.