HyperAIHyperAI
vor 2 Monaten

Menschen an ihren Platz bringen: Monoökulare Regression von 3D-Menschen in der Tiefe

Sun, Yu ; Liu, Wu ; Bao, Qian ; Fu, Yili ; Mei, Tao ; Black, Michael J.
Menschen an ihren Platz bringen: Monoökulare Regression von 3D-Menschen in der Tiefe
Abstract

Gegeben ein Bild mit mehreren Personen, ist unser Ziel, die Pose und Form aller Personen sowie ihre relative Tiefe direkt zu regressieren. Die Schätzung der Tiefe einer Person in einem Bild ist jedoch grundlegend zweideutig, wenn deren Größe nicht bekannt ist. Dies stellt insbesondere ein Problem dar, wenn die Szene Personen sehr unterschiedlicher Größen enthält, beispielsweise von Säuglingen bis hin zu Erwachsenen. Um dies zu lösen, benötigen wir mehrere Dinge. Erstens entwickeln wir eine neuartige Methode zur Inferenz der Posen und Tiefen mehrerer Personen in einem einzelnen Bild. Während frühere Arbeiten, die mehrere Personen schätzen, dies durch Überlegungen in der Bildebene tun, fügt unsere Methode, genannt BEV (Bird's-Eye-View), eine zusätzliche imaginäre Vogelperspektive hinzu, um explizit über die Tiefe nachzudenken. BEV überlegt gleichzeitig über Körperzentren im Bild und in der Tiefe und schätzt dadurch die 3D-Körperposition. Im Gegensatz zu früheren Arbeiten ist BEV eine Ein-Schritt-Methode, die von Anfang bis Ende differenzierbar ist. Zweitens variiert die Körpergröße mit dem Alter, was es unmöglich macht, die Tiefe ohne gleichzeitig das Alter der Personen im Bild zu schätzen zu bestimmen. Um dies zu erreichen, nutzen wir einen 3D-Körpermodellraum, der es BEV ermöglicht, Formen von Säuglingen bis hin zu Erwachsenen zu inferieren. Drittens benötigen wir für das Training von BEV einen neuen Datensatz. Speziell erstellen wir den "Relative Human" (RH)-Datensatz, der Alterslabels und relative Tiefenbeziehungen zwischen den Personen auf den Bildern enthält. Ausführliche Experimente auf RH und AGORA zeigen die Effektivität des Modells und des Trainingsansatzes. BEV übertrifft existierende Methoden bei der Tiefenschätzung, der Schätzungen von Kinderformen und der Robustheit gegenüber Verdeckungen. Der Code und der Datensatz werden für Forschungszwecke veröffentlicht.

Menschen an ihren Platz bringen: Monoökulare Regression von 3D-Menschen in der Tiefe | Neueste Forschungsarbeiten | HyperAI