2ヶ月前

V2A-Mapper: 基礎モデルを接続したビジョンからオーディオへの軽量な生成ソリューション

Wang, Heng ; Ma, Jianbo ; Pascual, Santiago ; Cartwright, Richard ; Cai, Weidong
V2A-Mapper: 基礎モデルを接続したビジョンからオーディオへの軽量な生成ソリューション
要約

基礎モデル(FMs)の上に人工知能(AI)システムを構築することは、AI研究における新しいパラダイムとなっています。これらのモデルは、大量のデータから学習した表現力と生成能力を容易に適応し、転移させることができ、新たな訓練なしで多様な下流タスクに対応できます。しかし、音響モダリティが関与するクロスモーダル生成において、FMsの活用はまだ十分に研究されていません。一方で、視覚入力から意味的に関連性のある音声を自動生成することは、クロスモーダル生成研究における重要な課題です。この視覚-音響(V2A)生成問題を解決するために、既存の手法では中規模のデータセットを使用して複雑なシステムを新たに設計・構築することが一般的です。本論文では、基礎モデルであるCLIP、CLAP、およびAudioLDMを活用することで、この問題に対する軽量な解決策を提案します。まず、視覚的なCLIPと聴覚的なCLAPの潜在空間間のドメインギャップを調査します。次に、このドメインギャップを埋めるためにシンプルかつ効果的なマッピング機構(V2A-Mapper)を提案します。V2A-Mapperは、CLIPとCLAPの空間間で視覚入力を翻訳することにより機能します。翻訳されたCLAPエンベディングに基づいて、事前学習済みの音響生成FM AudioLDMが高忠実度かつ視覚的に整合性のある音声を生成します。既存のアプローチと比較して、当方法ではV2A-Mapperのみの迅速な訓練が必要となります。さらに、V2A-Mapperの選択について分析し、広範な実験を行った結果、ジェネレーティブマッパーの方が忠実度と変動性(FD)において優れていますが、回帰マッパーの方が関連性(CS)においてやや優れていることが示されました。2つのV2Aデータセットに対する客観的評価と主観的評価により、当提案手法が現行の最先端アプローチに対して優れていることが確認されました。具体的には、86%少ないパラメータ数で53%および19%のFDとCS改善率を達成しています。