16日前

効率的な短時間離散コサイン変換と注目メカニズム付きMultiResUNetフレームワークを用いた音楽ソース分離

{N. Mitianoudis, A. Bousis, T. Sgouros}
要約

音声源分離問題、すなわち混合音声中に存在する音声成分を推定するという課題は、長年にわたり研究の中心的テーマである。近年のアプローチでは、深層学習モデルを用いて、短時間フーリエ変換(STFT)スペクトログラムを入力として各成分からの情報を抽出することに取り組んでいる。多くの手法は、各時周波数点に一つの音源が存在すると仮定しており、この仮定により、混合信号中の該当点を目的の音源に割り当てることが可能となる。しかし、この仮定は強いものであり、実際の音声データでは成立しないことが報告されており、その結果、STFTの振幅をネットワークの入力として使用する際の問題が生じる。すなわち、分離された音源の再構成においてフーリエ位相情報が欠落するという問題である。フーリエ位相情報の復元は、解析的に取り扱うのが困難であり、計算的にも非効率である。本論文では、実数値の短時間離散コサイン変換(ST-DCT)データを入力として用いる、新しい「アテンション付きマルチリゾリューションUNet(Attentive MultiResUNet)」アーキテクチャを提案する。このアプローチにより、ネットワーク内部で適切な値を直接推定することで、位相情報の復元問題を回避する。従来の複素数推定や後処理アルゴリズムの使用を避け、より効率的な処理を実現している。提案するネットワークは、残差スキップ接続を備えたU-Net型構造と、スキップ接続と直前のデコーダ出力との相関をモデル化するアテンション機構を特徴とする。本ネットワークは音声源分離分野において初めて採用されたものであり、最先端の分離ネットワークと比較して、計算コストを大幅に削減しつつも、優れた性能を達成している。

効率的な短時間離散コサイン変換と注目メカニズム付きMultiResUNetフレームワークを用いた音楽ソース分離 | 最新論文 | HyperAI超神経