Command Palette
Search for a command to run...
InterMask : Génération d'interactions humaines 3D par modèle masqué collaboratif
InterMask : Génération d'interactions humaines 3D par modèle masqué collaboratif
Muhammad Gohar Javed Chuan Guo Li Cheng Xingyu Li
Résumé
La génération d'interactions humaines réalistes en 3D à partir de descriptions textuelles reste une tâche ardue. Les approches existantes, généralement basées sur des modèles de diffusion, produisent souvent des résultats manquant de réalisme et de fidélité. Dans ce travail, nous introduisons InterMask, un cadre novateur pour la génération d'interactions humaines utilisant un modèle masqué collaboratif dans un espace discret. InterMask utilise d'abord un VQ-VAE pour transformer chaque séquence de mouvement en une carte de tokens de mouvement discrète 2D. Contrairement aux cartes de tokens VQ traditionnelles en 1D, cette méthode préserve mieux les détails spatio-temporels fins et favorise la conscience spatiale au sein de chaque token.En s'appuyant sur cette représentation, InterMask utilise un cadre de modélisation masquée générative pour modéliser collaborativement les tokens de deux individus interactifs. Cela est réalisé grâce à une architecture transformer spécifiquement conçue pour capturer des interdépendances spatio-temporelles complexes. Lors de l'entraînement, il masque aléatoirement les tokens de mouvement des deux individus et apprend à les prédire. Pour l'inférence, partant de séquences entièrement masquées, il remplit progressivement les tokens pour les deux individus.Grâce à sa représentation améliorée du mouvement, son architecture dédiée et sa stratégie d'apprentissage efficace, InterMask obtient des résultats d'état de l'art, générant des interactions humaines hautes en fidélité et diversifiées. Il surpasses les méthodes précédentes, atteignant un FID (Fréchet Inception Distance) de 5,154 (contre 5,535 pour in2IN) sur le jeu de données InterHuman et 0,399 (contre 5,207 pour InterGen) sur le jeu de données InterX. De plus, InterMask supporte sans heurt la génération de réactions sans nécessiter une redescente ou un ajustement fin du modèle.