17日前

PESQetarian:音声強調におけるグッドハートの法則の関連性について

Danilo de Oliveira, Simon Welker, Julius Richter, Timo Gerkmann
PESQetarian:音声強調におけるグッドハートの法則の関連性について
要約

音声強調モデルの性能を向上させるために、研究者たちはしばしば特定の計測指標に基づいた性能向上に注力する。しかし、同じ指標をモデル最適化に用いる損失関数に採用した場合、その指標が捉えていない側面には悪影響を及ぼす可能性がある。本論文の目的は、音声強調モデルが評価に用いられる指標に過剰に適合(オーバーフィット)するリスクを示すことにある。これを実現するため、広く用いられているPESQ指標を活用した強調モデルを提案する。我々が開発した「PESQetarian」モデルは、VB-DMDデータセット上でPESQ値3.82を達成しているが、聴取実験では極めて低い評価を受ける。PESQ値3.82という数値は、VB-DMDベンチマークにおいて「最先端(state-of-the-art)」の性能を示すと解釈されがちであるが、本研究の例から明らかになるように、ある指標に基づいて最適化を行う際、その指標のみによる孤立した評価は誤解を招く可能性がある。したがって、評価には他の指標も併用すべきであり、得られた性能予測は聴取実験によって裏付けられるべきである。