2ヶ月前
マスク付き生成ビデオ・オーディオ変換器による同期性の向上
Santiago Pascual, Chunghsin Yeh, Ioannis Tsiamas, Joan Serrà

要約
ビデオからオーディオ(V2A)生成は、視覚情報のみを用いたビデオ特徴量を利用して、シーンに適合する音声を生成します。重要な点は、生成された音声の発生タイミングがそれに対応する視覚的な動作と一致していることです。そうでない場合、不自然な同期アーティファクトが生じます。最近の研究では、静止画に基づく音声生成からビデオ特徴量に基づく音声生成への進展が探索されており、品質と意味的な適合性に焦点を当てつつ同期性を無視するか、または一部の品質を犠牲にして同期性の改善に焦点を当てる傾向があります。本研究では、フルバンド高品質汎用オーディオコーデックとシーケンス・ツー・シーケンスマスク付き生成モデルを相互接続したV2A生成モデルであるMaskVATを提案します。この組み合わせにより、高音質、意味的な適合性、および時間的な同期性を同時にモデル化することが可能になります。実験結果は、高品質コーデックと適切な事前学習済みの音声-視覚特徴量およびシーケンス・ツー・シーケンス並列構造を組み合わせることで、一方では非常に高い同期性を持つ結果を得ることができるとともに、他方では非コーデック型生成音声モデルの最先端と競争力のある性能を達成できることを示しています。サンプルビデオおよび生成された音声は以下のURLで利用可能です: https://maskvat.github.io 。