vor 17 Tagen

Der PESQetarian: Zur Relevanz des Goodhartschen Gesetzes für die Sprachverbesserung

Danilo de Oliveira, Simon Welker, Julius Richter, Timo Gerkmann

Abstract

Um verbesserte Sprachverstärkungsmodelle zu erzielen, konzentrieren sich Forscher häufig auf die Steigerung der Leistung gemäß bestimmten instrumentellen Metriken. Allerdings kann die Verwendung derselben Metrik in einer Verlustfunktion zur Optimierung von Modellen nachteilig sein für Aspekte, die von der jeweiligen Metrik nicht erfasst werden. Ziel dieses Papers ist es, das Risiko der Überanpassung eines Sprachverstärkungsmodells an die zur Bewertung verwendete Metrik zu verdeutlichen. Dazu stellen wir Verstärkungsmodelle vor, die die weit verbreitete PESQ-Messgröße ausnutzen. Unser „PESQetarian“-Modell erreicht auf VB-DMD einen PESQ-Wert von 3,82, erzielt jedoch in Hörversuchen sehr schlechte Ergebnisse. Während ein PESQ-Wert von 3,82 auf „State-of-the-Art“-Leistung auf dem VB-DMD-Benchmark hindeuten würde, zeigen unsere Beispiele, dass die Optimierung bezüglich einer Metrik eine isolierte Bewertung anhand derselben Metrik irreführend sein kann. Stattdessen sollten bei der Evaluation zusätzliche Metriken berücksichtigt werden, und die resultierenden Leistungsprognosen sollten durch Hörtests bestätigt werden.