MetricGAN-OKD: Multi-Metric-Optimierung von MetricGAN mittels Online Knowledge Distillation für die Sprachverbesserung

Bei der Sprachverbesserung reduzieren MetricGAN-basierte Ansätze die Diskrepanz zwischen der $L_p$-Verlustfunktion und Bewertungsmaßen, indem sie ein nicht-differenzierbares Bewertungsmaß als Zielfunktion nutzen. Die gleichzeitige Optimierung mehrerer Maße bleibt jedoch herausfordernd aufgrund des Problems widersprüchlicher Gradientenrichtungen. In diesem Artikel stellen wir eine effektive Multi-Maß-Optimierungsmethode innerhalb von MetricGAN vor, die auf Online-Knowledgedistillation basiert – MetricGAN-OKD. MetricGAN-OKD besteht aus mehreren Generatoren und Zielmaßen, die jeweils in einer ein-zu-eins-Beziehung zueinander stehen, wodurch die Generatoren zuverlässig bezüglich eines einzelnen Maßes lernen können, während gleichzeitig die Leistung hinsichtlich anderer Maße durch Nachahmung anderer Generatoren verbessert wird. Experimentelle Ergebnisse auf Aufgaben der Sprachverbesserung und der Hörempfindung zeigen, dass die vorgeschlagene Methode im Vergleich zu bestehenden Ansätzen zur Multi-Maß-Optimierung die Leistung hinsichtlich mehrerer Maße signifikant steigert. Darüber hinaus wird die hohe Leistungsfähigkeit von MetricGAN-OKD durch die Netzwerkgeneralisierbarkeit und die Korrelation zwischen den Maßen erklärt.