2ヶ月前
多モーダル共同訓練の制御による高品質なビデオからオーディオの合成
Ho Kei Cheng, Masato Ishii, Akio Hayakawa, Takashi Shibuya, Alexander Schwing, Yuki Mitsufuji

要約
われわれは、ビデオと任意のテキスト条件を基に、高品質で同期した音声を合成する新しいマルチモーダル共同学習フレームワークMMAudioを使用することを提案します。単一モーダルの学習が(限られた)ビデオデータのみに基づいているのに対し、MMAudioは大規模で容易に利用可能なテキスト-音声データと共に共同学習され、意味的に整合性のある高品質な音声サンプルを生成する能力を身につけます。さらに、フレームレベルでビデオ条件と音声潜在変数を合わせる条件付き同期モジュールにより、音声-視覚の同期性も向上させています。フローマッチング目的関数で学習されたMMAudioは、公開モデルの中でも音質、意味的な整合性、および音声-視覚の同期性において新たな最先端の成果を達成しており、推論時間(8秒クリップの生成に1.23秒)が短く、パラメータ数も1億5700万に過ぎません。また、MMAudioはテキストから音声への生成でも驚くほど競争力のある性能を示しており、共同学習が単一モーダルの性能を阻害しないことを証明しています。コードとデモンストレーションは以下のURLで入手可能です: https://hkchengrex.github.io/MMAudio