6ヶ月前

概要

音声を異なる音源に分離するためのディープラーニング手法は、いくつかの課題に直面している。従来のアーキテクチャでは、異なる種類の音源に対して別々のモデルを訓練する必要がある。一部のユニバーサル分離器は単一のモデルで複数の音源を処理できるが、未観測の音源への汎化能力に課題を抱えている。本論文では、大規模でありながら弱教師付きラベルが付与されたデータセット（AudioSet）から、ユニバーサル音源分離モデルを学習するための三段階パイプラインを提案する。第一に、弱教師付き学習データの処理を目的としたTransformerベースの音イベント検出システムを提案する。第二に、このデータを活用してモデルを訓練するためのクエリベース音声分離モデルを設計する。第三に、分離対象の音源を指定するクエリを符号化するための潜在埋め込み処理モジュールを構築し、ゼロショット一般化を実現する。本手法は、複数の音源タイプに対して単一のモデルで分離を実現し、学習に完全に弱教師付きデータに依存する。さらに、提案する音声分離器はゼロショット設定でも利用可能であり、訓練データに含まれなかった音源タイプに対しても分離を学習可能である。分離性能の評価として、MUSDB18データセット上でモデルを検証し、学習には互いに排他的なAudioSetを使用した。また、訓練データから除外された音源タイプに対して別途実験を行い、ゼロショット性能の有効性を検証した。その結果、両条件下において、現在の教師ありモデルと同等のソース対歪み比（SDR）性能を達成した。

ソースPDF