SEEG : Génération d'expressions gestuelles co-sémantiques énergisées

La génération de gestes parlés est une tâche pratique mais difficile, visant à synthétiser des gestes en cohérence avec le discours. Les gestes portant des significations pertinentes permettent une communication plus efficace et suscitent davantage d’empathie chez le public. Les travaux actuels se concentrent principalement sur l’alignement des gestes avec les rythmes du discours, ce qui rend difficile l’extraction des significations sémantiques et la modélisation explicite des gestes sémantiques. Dans cet article, nous proposons une nouvelle méthode, appelée SEmantic Energized Generation (SEEG), pour la génération de gestes consciente du sens. Notre approche se compose de deux composants : un module de fouille découplée (DEM) et un module d’activation sémantique (SEM). Le module DEM extrait séparément les informations pertinentes pour les gestes rythmiques et les gestes sémantiques, en éliminant les éléments non sémantiques présents dans les entrées. Le module SEM réalise une apprentissage sémantique et produit les gestes sémantiques. En plus de la similarité représentationnelle, le modèle impose que les prédictions expriment la même sémantique que la vérité terrain. En outre, un « prompteur sémantique » est intégré dans le module SEM afin d’exploiter une supervision consciente du sens pour guider les prédictions, ce qui incite le réseau à apprendre et à générer des gestes sémantiques. Les résultats expérimentaux, évalués selon trois métriques sur différentes bases de données, démontrent que SEEG extrait efficacement des indices sémantiques et génère des gestes sémantiques. Comparé aux autres méthodes, SEEG obtient des performances supérieures dans toutes les évaluations conscientes du sens sur diverses bases de données. Les évaluations qualitatives confirment également l’avantage de SEEG en termes d’expressivité sémantique.