17日前

Audio2Gestures:条件付き変分オートエンコーダを用いた音声から多様なジェスチャー生成

Jing Li, Di Kang, Wenjie Pei, Xuefei Zhe, Ying Zhang, Zhenyu He, Linchao Bao
Audio2Gestures:条件付き変分オートエンコーダを用いた音声から多様なジェスチャー生成
要約

音声から会話的なジェスチャーを生成することは、音声と身体運動の間に固有の「1対多」の対応関係があるため、困難である。従来のCNN/RNNモデルは「1対1」の対応を仮定しているため、複数の可能な運動の平均値を予測しがちであり、推論時に単調で退屈な運動が生成されてしまう。この問題を克服するために、本研究では、クロスモーダルな潜在表現を「共有コード」と「運動固有コード」に分割することで、「1対多」の音声から運動へのマッピングを明示的にモデル化する新しい条件付き変分自己符号化器(Conditional VAE)を提案する。共有コードは音声と運動の強い相関(たとえば、音声と運動のリズムが同期している点など)を主に捉え、運動固有コードは音声に依存しない多様な運動情報を表現する。しかし、潜在表現を二つの部分に分割することは、VAEモデルの学習を困難にする。これを解決するため、ランダムサンプリングを促進するマッピングネットワークを導入し、緩和された運動損失、自転車制約(bicycle constraint)、多様性損失(diversity loss)といった技術を併用して、より効果的なVAEの学習を実現した。3Dおよび2Dの運動データセットにおける実験により、本手法が最先端手法と比較して、定量的・定性的により現実的で多様な運動を生成できることを検証した。さらに、本手法がタイムライン上でユーザー指定の運動クリップを用いて運動シーケンスを容易に生成できることを実証した。コードおよび追加の結果は、https://jingli513.github.io/audio2gestures にて公開されている。

Audio2Gestures:条件付き変分オートエンコーダを用いた音声から多様なジェスチャー生成 | 最新論文 | HyperAI超神経