HSPACE: Synthetische parametrische Menschen, animiert in komplexen Umgebungen

Fortschritte im Stand der Technik bei der 3D-Menschen-Sensing sind derzeit durch den Mangel an visuellen Datensätzen mit 3D-Referenzwerten begrenzt, die mehrere Personen in Bewegung, in realen Umgebungen, unter komplexer Beleuchtung oder Verdeckung und möglicherweise von einer sich bewegenden Kamera erfasst aufweisen. Eine fortgeschrittene Szeneninterpretation erfordert die Schätzung von menschlicher Pose und Gestalt sowie Gesten, um Darstellungen zu erzeugen, die nützliche metrische und verhaltensbezogene Signale mit der Fähigkeit zur freien Blickpunkt-photorealistischen Visualisierung kombinieren. Um den Fortschritt zu sichern, erstellen wir einen großskaligen, photorealistischen Datensatz namens Human-SPACE (HSPACE), der animierte Menschen in komplexen synthetischen Innen- und Außenräumen darstellt. Wir kombinieren hundert verschiedene Individuen unterschiedlichen Alters, Geschlechts, Körperproportionen und ethnischen Hintergrunds mit Hunderten von Bewegungen und Szenen sowie parametrischen Variationen der Körpergestalt (insgesamt 1.600 unterschiedliche Menschen), um einen initialen Datensatz aus über einer Million Frames zu generieren. Die Menschenanimationen werden durch Anpassung eines expressiven menschlichen Körpermodells, GHUM, an einzelne Scans von Personen erzeugt, gefolgt von neuartigen Retargeting- und Positionierungsverfahren, die die realistische Animation bekleideter Menschen, statistische Variation der Körperproportionen sowie konsistente gemeinsame Platzierung mehrerer sich bewegender Personen ermöglichen. Die Assets werden automatisiert und in großem Maßstab generiert und sind mit bestehenden Echtzeit-Rendering- und Game-Engines kompatibel. Der Datensatz mit Evaluierungsserver wird für Forschungszwecke zur Verfügung gestellt. Unsere großskalige Analyse des Einflusses synthetischer Daten in Kombination mit echten Daten und schwacher Aufsicht unterstreicht das erhebliche Potenzial für kontinuierliche Qualitätsverbesserungen und die Reduzierung der Sim-to-Real-Lücke in diesem praktischen Kontext, insbesondere bei steigender Modellkapazität.