TransFusion : un modèle de diffusion basé sur Transformer pratique et efficace pour la prédiction du mouvement humain 3D

La prédiction du mouvement humain joue un rôle fondamental dans la garantie d’une collaboration sûre et efficace entre humains et robots dans les systèmes intelligents de remanufacture de demain. Les travaux existants peuvent être classés en deux catégories : ceux qui se concentrent sur la précision, en prédisant un seul mouvement futur, et ceux qui génèrent des prédictions diversifiées à partir d’observations. Le premier groupe ne prend pas en compte l’incertitude ni la nature multi-modale du mouvement humain, tandis que le second produit souvent des séquences de mouvement s’écartant trop de la vérité terrain ou devenant irréalistes dans leur contexte historique. Pour relever ces défis, nous proposons TransFusion, un modèle innovant et pratique basé sur la diffusion pour la prédiction de mouvements humains 3D, capable de générer des échantillons plus probables tout en conservant un certain niveau de diversité. Notre modèle repose sur une architecture Transformer dotée de connexions directes (skip connections) entre les couches superficielles et profondes. En outre, nous utilisons la transformation en cosinus discret pour modéliser les séquences de mouvement dans l’espace fréquentiel, ce qui améliore significativement les performances. Contrairement aux modèles précédents basés sur la diffusion, qui intègrent des modules supplémentaires tels que l’attention croisée ou la normalisation adaptative des couches pour conditionner la prédiction sur le mouvement observé passé, nous traitons tous les inputs, y compris les conditions, comme des tokens, ce qui permet de concevoir un modèle plus léger que les approches existantes. Des études expérimentales étendues ont été menées sur des jeux de données standards afin de valider l’efficacité de notre modèle de prédiction du mouvement humain.