2ヶ月前
Frieren: Rectified Flow Matchingを用いた効率的なビデオからオーディオ生成ネットワーク
Wang, Yongqi ; Guo, Wenxiang ; Huang, Rongjie ; Huang, Jiawei ; Wang, Zehan ; You, Fuming ; Li, Ruiqi ; Zhao, Zhou

要約
ビデオから音声(V2A)生成の目的は、無音のビデオからコンテンツに適合した音声を合成することです。高品質、効率性、および視覚-音響時間同期性を持つV2Aモデルの構築は依然として課題となっています。本研究では、修正フロー・マッチングに基づくV2AモデルであるFrierenを提案します。Frierenはノイズからスペクトログラム潜在変数への条件付き輸送ベクトル場を直線的な経路で回帰し、ODEを解いてサンプリングを行うことで、自己回帰型とスコアベースのモデルよりも優れた音質を達成します。また、フィードフォワードトランスフォーマーに基づく非自己回帰型ベクトル場推定器と、強い時間的整合性を持つチャネルレベルでのクロスモーダル特徴量融合を使用することで、当モデルは入力ビデオと高い同期性を持つ音声を生成します。さらに、ガイド付きベクトル場によるリフローとワンステップ蒸留を通じて、当モデルは少数または単一のサンプリングステップで十分な音質の音声を生成することが可能です。実験結果によると、FrierenはVGGSoundにおいて生成品質と時間的整合性の両面で最先端の性能を達成しており、時間的整合性精度が97.22%に達し、強力な拡散ベースの基準モデルに対してインセプションスコアで6.2%の改善が見られました。音声サンプルは http://frieren-v2a.github.io で利用可能です。