TransFusion: Ein praktisches und effektives auf Transformer basierendes Diffusionsmodell für die Vorhersage von 3D-Menschenbewegungen

Die Vorhersage menschlicher Bewegungen spielt eine entscheidende Rolle für die sichere und effektive menschlich-roboter-nahe Zusammenarbeit in intelligenten Remanufacturingsystemen der Zukunft. Bestehende Ansätze lassen sich in zwei Kategorien einteilen: solche, die sich auf Genauigkeit konzentrieren und eine einzelne zukünftige Bewegung vorhersagen, sowie solche, die auf der Grundlage von Beobachtungen vielfältige Vorhersagen generieren. Die erste Gruppe berücksichtigt die Unsicherheit und multimodale Natur menschlicher Bewegungen nicht ausreichend, während die zweite Gruppe oft Bewegungssequenzen erzeugt, die sich stark von der Wahrheit (ground truth) unterscheiden oder innerhalb des historischen Kontexts unrealistisch werden. Um diese Probleme anzugehen, stellen wir TransFusion vor – ein innovatives und praktikables diffusionbasiertes Modell zur 3D-Vorhersage menschlicher Bewegungen, das Proben generiert, die wahrscheinlicher sind, während gleichzeitig eine gewisse Vielfalt gewahrt bleibt. Unser Modell basiert auf einem Transformer mit langen Skip-Verbindungen zwischen flachen und tiefen Schichten. Zudem nutzen wir die diskrete Kosinustransformation, um Bewegungssequenzen im Frequenzraum zu modellieren, wodurch die Leistung verbessert wird. Im Gegensatz zu früheren diffusionbasierten Modellen, die zusätzliche Module wie Cross-Attention und adaptive Layer-Normalisierung einsetzen, um die Vorhersage auf die vergangenen Beobachtungen zu konditionieren, behandeln wir alle Eingaben – einschließlich der Bedingungen – als Tokens, wodurch ein leichtgewichtiges Modell entsteht, das gegenüber bestehenden Ansätzen vorteilhaft ist. Um die Wirksamkeit unseres Modells zur Vorhersage menschlicher Bewegungen zu validieren, wurden umfangreiche experimentelle Studien auf Benchmark-Datensätzen durchgeführt.