Speech2AffectiveGestures:生成対抗的感情表現学習を用いた共話ジェスチャーの合成

本研究では、入力音声と初期ポーズから得られる特徴の統合埋め込み空間を用いて、適切な感情表現を伴う共話上半身ジェスチャーの3Dポーズシーケンスを生成する生成的 adversarial ネットワーク(GAN)を提案する。本ネットワークは、生成器と識別器の2つの構成要素から構成される。生成器は、入力音声から抽出した特徴と初期ポーズの埋め込み空間からジェスチャーを合成する役割を果たし、識別器は合成されたポーズシーケンスと実際の3Dポーズシーケンスを区別する。生成器内では、入力音声から算出されたメル周波数ケプストラム係数(MFCC)とテキストトランスクリプトを別々のエンコーダで処理し、望ましい感情状態および関連する感情的サインを学習する。さらに、多スケールの空間時系列グラフ畳み込みを用いた感情エンコーダを設計し、3Dポーズシーケンスを潜在的なポーズベースの感情特徴に変換する。この感情エンコーダは、生成器において初期ポーズから感情特徴を学習しジェスチャー合成をガイドする役割を果たすとともに、識別器において合成ジェスチャーが適切な感情表現を含むことを強制する機能を持つ。本手法は、ジェスチャー合成における2つのベンチマークデータセット、TED Gesture Dataset および GENEA Challenge 2020 Dataset に対して広範な評価を実施した。最良の既存手法と比較して、平均絶対関節誤差は10–33%、平均加速度差は8–58%、Fréchet Gesture Distanceは21–34%の改善を達成した。また、ユーザー研究も実施した結果、最良の既存手法と比較して、約15.28%の参加者が本手法で生成されたジェスチャーがより現実的であると評価し、約16.32%の参加者が音声に整合したより適切な感情表現を有していると感じた。