
視覚シーンと音声シーンの内容は多面的であり、ビデオが様々な音声と組み合わせられ、逆もまた同様です。したがって、ビデオから音声への生成タスクにおいては、生成される音声を制御するためのステアリング手法を導入することが不可欠です。ビデオから音声への生成は確立された生成タスクである一方で、既存の方法にはこのような制御性が欠けています。本研究では、VATT(Visual-Audio-Text Transformer)というマルチモーダル生成フレームワークを提案します。このフレームワークはビデオと任意のテキストプロンプトを入力として受け取り、音声と任意の音声のテキスト説明を生成します。このようなフレームワークには2つの利点があります:i) テキストを通じてビデオから音声への生成過程を洗練し、視覚情報の文脈を補完することができます;ii) 音声キャプションを生成することで、モデルがビデオに対してどのような音声を生成すべきか提案することができます。VATTは2つの主要なモジュールで構成されています:VATT ConverterとVATT Audioです。VATT Converterは、指示に微調整され、ビデオ特徴量をLLM(大規模言語モデル)ベクトル空間に射影する層を持つLLMです。VATT Audioは、視覚フレームと任意のテキストプロンプトから音声トークンを反復並列デコーディングによって生成するトランスフォーマーです。これらの音声トークンは事前学習済みのニューラルコーデックによって波形に変換されます。実験結果によると、客観的な指標で既存のビデオから音声への生成方法と比較した場合、VATTは音声キャプションが提供されないときでも競合可能な性能を達成しています。さらに、音声キャプションがプロンプトとして提供される場合、VATTはより精緻な性能(KLDスコア1.41)を達成しています。主観的な研究でも、VATT Audioが既存の方法によって生成された音声よりも優れた選択肢として選ばれていることが示されています。VATTはテキストを通じた制御可能なビデオから音声への生成だけでなく、音声キャプションを通じたテキストプロンプトの提案も可能にし、テキストガイド付きビデオから音声への生成やビデオから音声キャプションへの変換など新たな応用分野を開拓します。