16日前

LLMに基づくシステムと生物学的にインスパイアされた単一耳音声分離システムにおける調和性の重要な役割

Rahil Parikh, Ilya Kavalerov, Carol Espy-Wilson, Shihab Shamma
LLMに基づくシステムと生物学的にインスパイアされた単一耳音声分離システムにおける調和性の重要な役割
要約

深層学習の最近の進展により、音声分離モデルの性能は顕著に向上している。その成功と応用範囲の拡大にもかかわらず、これらのネットワークが分離を実現するために学習する背後にある原理を分析する試みは依然として少ない。本研究では、最先端の深層ニューラルネットワーク(DNN)ベースの2つのモデル—Conv-TasNetおよびDPT-Net—における調和性(harmonicity)の役割を分析する。自然音声の混合音と、わずかに非調和性を帯びた音声の混合音(調和成分にわずかな周波数ジッターを加えたもの)を用いて、モデルの性能を評価した。その結果、一方の音声源がわずかに調和性が崩れただけでも、性能が著しく低下することが明らかになった。たとえば、人間の聴覚では感知しづらい3%程度の調和性ジッターでも、Conv-TasNetの性能は15.4 dBから0.70 dBまで低下した。非調和性音声でモデルを学習させても、この感度は改善されず、むしろ自然音声混合音に対する性能がさらに悪化した。これは、非調和性がDNNモデルにとって強力な敵対的要因であることを示している。さらに、追加的な分析から、DNNアルゴリズムが、調和性に依存せず主に時間的手がかり(timing cues)に依拠する生物学的にインスパイアされた分離手法とは著しく異なる挙動を示すことが明らかになった。

LLMに基づくシステムと生物学的にインスパイアされた単一耳音声分離システムにおける調和性の重要な役割 | 最新論文 | HyperAI超神経