Szene-Synthese aus menschlicher Bewegung

Die groß angelegte Erfassung menschlicher Bewegungen in vielfältigen und komplexen Szenen wird, obwohl sie äußerst nützlich ist, oft als unerschwinglich teuer angesehen. Gleichzeitig enthält die menschliche Bewegung allein reichhaltige Informationen über die Szene, in der sie stattfindet, und mit der sie interagiert. Zum Beispiel deutet ein sitzender Mensch auf das Vorhandensein eines Stuhls hin, und ihre Beinstellung impliziert zudem die Position des Stuhls. In dieser Arbeit schlagen wir vor, basierend auf menschlichen Bewegungen vielfältige, semantisch sinnvolle und physikalisch plausible Szenen zu synthetisieren. Unser Framework, Scene Synthesis from HUMan MotiON (SUMMON), umfasst zwei Schritte. Zunächst verwendet es ContactFormer, unseren neu eingeführten Kontaktprädiktor, um zeitlich konsistente Kontaktlabels aus menschlichen Bewegungen zu extrahieren. Auf Basis dieser Vorhersagen wählt SUMMON dann interagierende Objekte aus und optimiert physikalische Plausibilitätsverluste; es füllt die Szene zudem mit Objekten an, die nicht mit Menschen interagieren. Experimentelle Ergebnisse zeigen, dass SUMMON machbare, plausible und vielfältige Szenen synthetisiert und das Potenzial hat, umfangreiche Daten zur Interaktion von Menschen mit Szenen für die Gemeinschaft zu generieren.