2ヶ月前

読み、見、そして叫べ!テキストとビデオからの音声生成

Jeong, Yujin ; Kim, Yunji ; Chun, Sanghyuk ; Lee, Jiyoung
読み、見、そして叫べ!テキストとビデオからの音声生成
要約

多モーダル生成モデルの著しい進歩にもかかわらず、ビデオから音声への生成は依然として性能に制限があり、シーン内の特定のオブジェクトに対する音声合成の優先度を調整する柔軟性が不足しています。一方、テキストから音声への生成手法は高品質な音声を生成しますが、包括的なシーン描写と時間変化制御を確保する上で課題を抱えています。これらの課題に対処するために、私たちはビデオとテキストから音声を生成する新しい方法である\ours(私たちの手法)を提案します。特に、この手法ではビデオから音声の構造的情報(すなわちエネルギー)を推定し、ユーザーからのプロンプトで重要なコンテンツ情報を取得します。私たちは高性能なテキストから音声への生成モデルを使用してビデオ制御を統合しており、これは大規模な三つ組データ(音声-ビデオ-テキスト)でマルチモーダル拡散モデルを訓練する際に遥かに効率的です。さらに、音声の生成要素を分離することで、ユーザーは好みに応じてエネルギー、周囲環境、主要な音源を自由に調整できるより柔軟なシステムとなります。実験結果は、私たちの手法が品質、制御性、および訓練効率において優れていることを示しています。コードとデモはhttps://naver-ai.github.io/rewas で利用可能です。

読み、見、そして叫べ!テキストとビデオからの音声生成 | 最新論文 | HyperAI超神経