HyperAIHyperAI
il y a 2 mois

BiPO : Réseau d’Occlusion Partielle Bidirectionnel pour la Synthèse Texte-Mouvement

Hong, Seong-Eun ; Lim, Soobin ; Hwang, Juyeong ; Chang, Minwook ; Kang, Hyeongyeop
BiPO : Réseau d’Occlusion Partielle Bidirectionnel pour la Synthèse Texte-Mouvement
Résumé

La génération de mouvements humains naturels et expressifs à partir de descriptions textuelles est un défi en raison de la complexité de la coordination des dynamiques du corps entier et de la capture de motifs de mouvement subtils sur des séquences prolongées qui reflètent fidèlement le texte donné. Pour répondre à ce défi, nous présentons BiPO, un réseau bidirectionnel d'occlusion partielle (Bidirectional Partial Occlusion Network) pour la synthèse textuelle-à-mouvement, un modèle novateur qui améliore la synthèse textuelle-à-mouvement en intégrant une génération basée sur les parties avec une architecture autorégressive bidirectionnelle. Cette intégration permet à BiPO de prendre en compte à la fois les contextes passés et futurs lors de la génération tout en renforçant le contrôle détaillé sur les parties individuelles du corps sans nécessiter la longueur réelle du mouvement. Pour atténuer l'interdépendance entre les parties du corps causée par cette intégration, nous avons développé la technique d'occlusion partielle, qui occulte probabilistiquement certaines informations sur les parties du mouvement pendant l'entraînement. Dans nos expériences exhaustives, BiPO atteint des performances d'état de l'art sur l'ensemble de données HumanML3D, surpassant des méthodes récentes comme ParCo, MoMask et BAMM en termes de scores FID et de qualité globale du mouvement. Notamment, BiPO excelle non seulement dans la tâche de génération textuelle-à-mouvement mais aussi dans les tâches d'édition de mouvement qui synthétisent des mouvements basés sur des séquences partiellement générées et des descriptions textuelles. Ces résultats mettent en évidence l'efficacité de BiPO pour faire progresser la synthèse textuelle-à-mouvement ainsi que son potentiel pour des applications pratiques.