HyperAIHyperAI
il y a 2 mois

MambaTalk : Synthèse gestuelle holistique efficace avec des modèles d'espace d'état sélectifs

Xu, Zunnan ; Lin, Yukang ; Han, Haonan ; Yang, Sicheng ; Li, Ronghui ; Zhang, Yachao ; Li, Xiu
MambaTalk : Synthèse gestuelle holistique efficace avec des modèles d'espace d'état sélectifs
Résumé

La synthèse de gestes est un domaine crucial de l'interaction homme-machine, avec des applications variées dans des domaines tels que le cinéma, la robotique et la réalité virtuelle. Les récentes avancées ont utilisé le modèle de diffusion et les mécanismes d'attention pour améliorer la synthèse de gestes. Cependant, en raison de la complexité computationnelle élevée de ces techniques, la génération de séquences longues et diversifiées avec une faible latence reste un défi. Nous explorons le potentiel des modèles d'espace d'état (SSMs) pour relever ce défi, en mettant en œuvre une stratégie de modélisation en deux étapes avec des a priori discrets du mouvement afin d'améliorer la qualité des gestes. En nous appuyant sur le bloc fondamental Mamba, nous présentons MambaTalk, qui augmente la diversité et le rythme des gestes grâce à l'intégration multimodale. De nombreuses expériences montrent que notre méthode égale ou dépasse les performances des modèles les plus avancés actuellement disponibles.

MambaTalk : Synthèse gestuelle holistique efficace avec des modèles d'espace d'état sélectifs | Articles de recherche récents | HyperAI