16日前
フローマッチングを用いた統合的音声およびジェスチャー合成
Shivam Mehta, Ruibo Tu, Simon Alexanderson, Jonas Beskow, Éva Székely, Gustav Eje Henter

要約
音声合成技術が朗読タスクにおいて著しい自然さを達成する一方で、 spontaneuousな発話と関連する身体の動きといった、言語的・非言語的コミュニケーション行動のマルチモーダル統合合成への関心が高まっている。本論文では、テキストから音声の音響特性とスケルトンベースの3Dジェスチャー運動を統合的に合成する新たな統一型アーキテクチャを提案する。このアーキテクチャは、最適輸送条件付きフローマッチング(OT-CFM)を用いて訓練されており、従来の最先端技術と比較して構造が単純化されており、メモリ使用量も小さい。さらに、音声とジェスチャーの同時分布を適切に捉え、一つのプロセスで両モダリティを同時に生成することが可能である。一方、新しく提案する学習手法により、従来よりもはるかに少ないステップ(ネットワーク評価回数)で優れた合成品質が達成できる。単モーダルおよびマルチモーダルの主観評価テストの結果、既存のベンチマークと比較して、音声の自然さ、ジェスチャーの人間らしさ、およびモダリティ間の適切さの点で有意な向上が確認された。動画例およびコードは、https://shivammehta25.github.io/Match-TTSG/ にて公開されている。