6ヶ月前

マルチモーダル表現

オーディオ

マルチモーダル

Shivam Mehta Ruibo Tu Simon Alexanderson Jonas Beskow Éva Székely Gustav Eje Henter

概要

音声合成技術が朗読タスクにおいて著しい自然さを達成する一方で、 spontaneuousな発話と関連する身体の動きといった、言語的・非言語的コミュニケーション行動のマルチモーダル統合合成への関心が高まっている。本論文では、テキストから音声の音響特性とスケルトンベースの3Dジェスチャー運動を統合的に合成する新たな統一型アーキテクチャを提案する。このアーキテクチャは、最適輸送条件付きフローマッチング（OT-CFM）を用いて訓練されており、従来の最先端技術と比較して構造が単純化されており、メモリ使用量も小さい。さらに、音声とジェスチャーの同時分布を適切に捉え、一つのプロセスで両モダリティを同時に生成することが可能である。一方、新しく提案する学習手法により、従来よりもはるかに少ないステップ（ネットワーク評価回数）で優れた合成品質が達成できる。単モーダルおよびマルチモーダルの主観評価テストの結果、既存のベンチマークと比較して、音声の自然さ、ジェスチャーの人間らしさ、およびモダリティ間の適切さの点で有意な向上が確認された。動画例およびコードは、https://shivammehta25.github.io/Match-TTSG/ にて公開されている。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

マルチモーダル表現

オーディオ

マルチモーダル

Shivam Mehta Ruibo Tu Simon Alexanderson Jonas Beskow Éva Székely Gustav Eje Henter

概要

音声合成技術が朗読タスクにおいて著しい自然さを達成する一方で、 spontaneuousな発話と関連する身体の動きといった、言語的・非言語的コミュニケーション行動のマルチモーダル統合合成への関心が高まっている。本論文では、テキストから音声の音響特性とスケルトンベースの3Dジェスチャー運動を統合的に合成する新たな統一型アーキテクチャを提案する。このアーキテクチャは、最適輸送条件付きフローマッチング（OT-CFM）を用いて訓練されており、従来の最先端技術と比較して構造が単純化されており、メモリ使用量も小さい。さらに、音声とジェスチャーの同時分布を適切に捉え、一つのプロセスで両モダリティを同時に生成することが可能である。一方、新しく提案する学習手法により、従来よりもはるかに少ないステップ（ネットワーク評価回数）で優れた合成品質が達成できる。単モーダルおよびマルチモーダルの主観評価テストの結果、既存のベンチマークと比較して、音声の自然さ、ジェスチャーの人間らしさ、およびモダリティ間の適切さの点で有意な向上が確認された。動画例およびコードは、https://shivammehta25.github.io/Match-TTSG/ にて公開されている。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています