17日前
RemixIT:ブートストラップによるリミックスを用いた音声強調モデルの継続的自己訓練
Efthymios Tzinis, Yossi Adi, Vamsi Krishna Ithapu, Buye Xu, Paris Smaragdis, Anurag Kumar

要約
本稿では、領域内音声データやノイズ波形を一切必要としない、シンプルでありながら効果的な自己教師学習手法であるRemixITを提案する。従来の手法は、クリーンな領域内ターゲット信号に依存しており、学習データとテストデータの間のドメイン不一致に対して敏感であるという限界があったが、RemixITはこれを克服する。本手法は、領域外データで事前に学習された教師モデルが、領域内混合音声に対して推定された擬似ターゲット信号を生成する連続的自己学習スキームに基づいている。その後、推定されたクリーン音声とノイズ信号をランダムに並べ替え、再混合することで、新たなブートストラップ混合信号と対応する擬似ターゲットを生成し、これを学生ネットワークの学習に用いる。逆に、教師モデルは最新の学生モデルのパラメータを用いて、定期的に自身の推定を更新・改善する。複数の音声強調データセットおよびタスクにおける実験結果から、本手法が従来手法を上回る優位性を示すとともに、RemixITは任意の分離モデルと組み合わせ可能であり、半教師付きおよび無教師のドメイン適応タスクにも適用可能であることが明らかになった。分析結果と実証的証拠を併せることで、本自己学習スキームの内部挙動が解明された。特に、学生モデルが極めて劣化した擬似ターゲットを観測しつつも、継続的に性能を向上させている点が明らかになった。