HyperAIHyperAI
vor 2 Monaten

MambaTalk: Effiziente ganzheitliche Gestensynthese mit selektiven Zustandsraummodellen

Xu, Zunnan ; Lin, Yukang ; Han, Haonan ; Yang, Sicheng ; Li, Ronghui ; Zhang, Yachao ; Li, Xiu
MambaTalk: Effiziente ganzheitliche Gestensynthese mit selektiven Zustandsraummodellen
Abstract

Die Gestenerzeugung ist ein entscheidendes Gebiet der Mensch-Computer-Interaktion, mit weitreichenden Anwendungen in verschiedenen Bereichen wie Film, Robotik und Virtual Reality. Neueste Fortschritte haben das Diffusionsmodell und Aufmerksamkeitsmechanismen genutzt, um die Gestenerzeugung zu verbessern. Dennoch bleibt die Erzeugung langer und vielfältiger Sequenzen mit geringer Latenz aufgrund der hohen rechnerischen Komplexität dieser Techniken eine Herausforderung. Wir untersuchen das Potential von Zustandsraummodellen (SSMs) zur Bewältigung dieser Herausforderung und implementieren eine zweistufige Modellierungsstrategie mit diskreten Bewegungsprioritäten, um die Qualität der Gesten zu erhöhen. Unter Verwendung des grundlegenden Mamba-Blocks stellen wir MambaTalk vor, das durch multimodale Integration die Gestenvielfalt und den Rhythmus verbessert. Umfangreiche Experimente zeigen, dass unsere Methode die Leistung der besten aktuellen Modelle erreicht oder übertreffen kann.

MambaTalk: Effiziente ganzheitliche Gestensynthese mit selektiven Zustandsraummodellen | Neueste Forschungsarbeiten | HyperAI