2ヶ月前

CLAPSep: コントラスティブ事前学習モデルを活用した多モーダルクエリ条件付き目標音抽出

Ma, Hao ; Peng, Zhiyuan ; Li, Xu ; Shao, Mingjie ; Wu, Xixin ; Liu, Ju
CLAPSep: コントラスティブ事前学習モデルを活用した多モーダルクエリ条件付き目標音抽出
要約

普遍的な音分離(USS)は、現実世界の録音から任意の種類の音を抽出することを目指しています。これは、言語クエリに基づく対象音抽出(TSE)によって達成可能です。TSEは通常、2つのコンポーネントで構成されています:ユーザークエリを条件付き埋め込みに変換するクエリネットワークと、それに応じて対象音を抽出する分離ネットワークです。既存の手法では、モデルをゼロから学習することが一般的であり、その結果、ランダムに初期化されたモデルが音イベントを理解し、それに応じて分離を行うために大量のデータと計算資源が必要となります。本論文では、この問題に対処するために事前学習済みモデルをTSEモデルに統合することを提案します。具体的には、強力なコントラスティブ言語-オーディオ事前学習済みモデル(CLAP)をUSSに適応させ、これをCLAPSepと表記します。CLAPSepは柔軟なユーザー入力を受け付け、単一モダリティおよび/または複数モダリティの肯定的および否定的ユーザープロンプトを取り扱います。これらのCLAPSepの主要な特徴は、抽出性能を向上させるだけでなく、その適用範囲の多様性も向上させます。5つの異なるデータセットを使用して広範な実験を行い、提案したCLAPSepが高速な学習収束とともに優れた性能とゼロショットおよびファーソット的一般化能力を持つことを示しました。既存の手法よりも大幅に優れていることが確認されました。再現性と評価のために完全なコードといくつかのオーディオ例が公開されています。