
要約
音声強調において、MetricGANに基づくアプローチは、微分不可能な評価指標を目的関数として用いることで、$L_p$損失と評価指標との乖離を低減する。しかし、勾配の方向が混同する問題に起因し、複数の評価指標を同時に最適化することは依然として困難である。本稿では、オンライン知識蒸留を用いた効果的な多指標最適化手法、すなわちMetricGAN-OKDを提案する。MetricGAN-OKDは、一対一対応関係で結ばれた複数の生成器とターゲット指標から構成されており、各生成器が一つの指標に対して信頼性高く学習しつつ、他の生成器を模倣することで他の指標に関する性能も向上させることを可能にする。音声強調および聴取品質強調タスクにおける実験結果から、従来の多指標最適化手法と比較して、本手法が複数の評価指標において顕著な性能向上を達成することが明らかになった。さらに、MetricGAN-OKDの優れた性能は、ネットワークの汎化能力および評価指標間の相関性の観点から説明できる。