2ヶ月前

ビジョンから音響へそしてその先へ:音響-視覚表現と生成の統一モデル

Su, Kun ; Liu, Xiulong ; Shlizerman, Eli
ビジョンから音響へそしてその先へ:音響-視覚表現と生成の統一モデル
要約

ビデオは視覚データと聴覚データの両方を含み、これら2つのモダリティが互いに補完し合う豊かな知覚体験を創出します。したがって、ビデオは音声と視覚要素の相互作用を調査するための価値あるメディアです。これまでの音声-視覚モダリティに関する研究では、主に音声-視覚表現学習または一方のモダリティに基づいて他方を生成するモデルに焦点が当てられてきました。これにより、これらの2つの分野間に乖離が生じています。統一されたフレームワークで表現学習とモダリティ生成を行うものはまだ開発されていません。本研究では、音声-視覚表現学習と視覚から音声への生成の間のギャップを埋める新しいフレームワークである「Vision to Audio and Beyond (VAB)」を提案します。VABの主要なアプローチは、生のビデオフレームや音声データではなく、潜在空間内で表現学習と生成モデリングを行うことです。特に、VABは事前学習済みの音声トークナイザーと画像エンコーダーを使用して、それぞれ音声トークンと視覚特徴を得ます。その後、視覚条件付きマスクされた音声トークン予測という事前学習タスクを行います。この学習戦略により、モデルは文脈的な学習を行いながら同時にビデオから音声を生成することができます。事前学習フェーズ後、VABは反復デコーディング手法を使用して、視覚特徴に基づいて迅速に音声トークンを生成します。VABは統一モデルであるため、そのバックボーンは様々な音声-視覚下流タスクに対して微調整することができます。我々の実験結果は、VABが高品質な音声をビデオから効率的に生成できることを示しており、意味的な音声-視覚特徴を獲得できる能力により、音声-視覚検索や分類において競争力のある結果を得ています。

ビジョンから音響へそしてその先へ:音響-視覚表現と生成の統一モデル | 最新論文 | HyperAI超神経