GestureGAN pour la traduction de gestes manuels en gestes manuels dans des conditions réelles

La traduction de gestes manuels à des gestes manuels dans des conditions réelles est une tâche complexe, car les gestes manuels peuvent présenter des postures, tailles, positions et auto-occultations arbitraires. Par conséquent, cette tâche nécessite une compréhension de haut niveau de la correspondance entre le geste source d'entrée et le geste cible de sortie. Pour aborder ce problème, nous proposons un nouveau réseau génératif adversarial pour les gestes manuels (Gesture Generative Adversarial Network, GestureGAN). GestureGAN se compose d'un générateur unique ( G ) et d'un discriminateur ( D ), qui prennent en entrée une image de main conditionnelle et une image de squelette de main cible. GestureGAN utilise explicitement les informations du squelette de la main et apprend la correspondance geste-manuel à geste-manuel grâce à deux nouvelles pertes : la perte de couleur et la perte de cycle-cohérence. La perte de couleur proposée gère le problème de « pollution des canaux » lors du rétropropagation des gradients. De plus, nous présentons la distance Fréchet ResNet (FRD) pour évaluer la qualité des images générées. Des expériences approfondies sur deux ensembles de données基准数据集 widely used montrent que le GestureGAN proposé atteint des performances de pointe dans la tâche de traduction non contrainte des gestes manuels. En outre, les images générées sont de haute qualité et photo-réalistes, permettant leur utilisation comme augmentation de données pour améliorer les performances d'un classifieur de gestes manuels. Notre modèle et notre code sont disponibles à l'adresse suivante : https://github.com/Ha0Tang/GestureGAN.Note: 由于“benchmark datasets”在法语中通常直接使用英文,因此这里保留了英文原词。如果需要完全翻译,可以使用“ensembles de données standards”。