
要約
V-AURAの導入について紹介します。これは、ビデオから音声への生成において高い時間的整合性と関連性を達成した最初の自己回帰モデルです。V-AURAは、高フレームレートの視覚特徴抽出器とクロスモーダルな音響・視覚特徴融合戦略を使用することで、微細な視覚運動イベントを捉え、正確な時間的整合性を確保しています。さらに、我々は高音響・視覚関連性を持つベンチマークデータセットであるVisualSoundを提案します。VisualSoundは、YouTubeから抽出された野生環境でのサンプルで構成されるビデオデータセットVGGSoundに基づいています。キュレーション過程では、聴覚イベントが視覚イベントと整合していないサンプルを削除しました。V-AURAは、時間的整合性と意味的関連性において現行の最先端モデルを上回りながら、同等の音質を維持しています。コード、サンプル、VisualSoundおよびモデルは以下のURLで利用可能です。https://v-aura.notion.site