Speech2AffectiveGestures : Synthétisation de gestes associés à la parole par apprentissage génératif de l'expression affective par adversarité

Nous présentons un réseau adversaire génératif pour la synthèse de séquences 3D de gestes corporels co-speech, accompagnées d’expressions affectives appropriées. Notre réseau se compose de deux composants : un générateur chargé de produire des gestes à partir d’un espace d’encodage conjoint dérivé de caractéristiques extraites du discours d’entrée et des poses initiales (seed poses), et un discriminateur capable de distinguer les séquences de poses synthétisées des séquences réelles de poses 3D. Dans notre générateur, nous utilisons séparément les coefficients de cepstrum de fréquence Mel (Mel-frequency cepstral coefficients) et le transcript textuel extraits du discours d’entrée, via deux encodeurs distincts, afin d’apprendre les sentiments souhaités ainsi que les indices affectifs associés. Nous avons conçu un encodeur affectif basé sur des convolutions de graphes spatio-temporelles à plusieurs échelles, permettant de transformer les séquences de poses 3D en caractéristiques affectives latentes fondées sur les poses. Cet encodeur affectif est intégré à la fois dans le générateur — où il extrait des caractéristiques affectives à partir des poses initiales pour guider la synthèse des gestes — et dans le discriminateur — où il impose que les gestes synthétisés contiennent des expressions affectives appropriées. Nous menons des évaluations approfondies sur deux jeux de données de référence pour la synthèse de gestes à partir du discours : le TED Gesture Dataset et le GENEA Challenge 2020 Dataset. Par rapport aux meilleures méthodes de référence, nous améliorons l’erreur absolue moyenne des articulations de 10 à 33 %, la différence moyenne d’accélération de 8 à 58 %, et la distance Fréchet des gestes de 21 à 34 %. Nous avons également mené une étude utilisateurs, dans laquelle environ 15,28 % des participants ont jugé que nos gestes synthétisés paraissaient plus crédibles, tandis que près de 16,32 % ont perçu une meilleure adéquation entre les expressions affectives des gestes et le discours.