17日前
発話強調のためのブートストラップリミックスを用いた継続的自己訓練
Efthymios Tzinis, Yossi Adi, Vamsi K. Ithapu, Buye Xu, Anurag Kumar

要約
我々は、音声強調(speech enhancement)のためのシンプルかつ新規な自己教師付き学習手法であるRemixITを提案する。本手法は、従来の研究で抱えていた制約、すなわちドメイン内ノイズ分布に関する仮定や、クリーンなターゲット信号へのアクセスを必要とする点を克服する、継続的自己学習スキームに基づいている。具体的には、ドメイン外のデータセット上で事前に学習された分離教師モデルを用いて、ドメイン内の混合信号バッチに対して推定されたターゲット信号を生成する。次に、推定されたクリーン信号とノイズ信号を並べ替え(permuted)ることで人工的な混合信号を生成し、混合プロセスをブートストラップする。最後に、並べ替えられた推定ソースをターゲットとして学生モデルを学習させ、同時に最新の学生モデルを用いて教師モデルの重みを定期的に更新する。実験の結果、RemixITは複数の音声強調タスクにおいて、従来の最先端自己教師付き手法を上回る性能を示した。さらに、RemixITは、半教師付きおよび無教師付きドメイン適応のシームレスな代替手段としての可能性を提供するとともに、任意の分離タスクに一般化可能であり、任意の分離モデルと組み合わせて利用可能である。