HyperAIHyperAI
il y a 17 jours

Le PESQetarian : Sur la pertinence de la loi de Goodhart pour l'amélioration de la parole

Danilo de Oliveira, Simon Welker, Julius Richter, Timo Gerkmann
Le PESQetarian : Sur la pertinence de la loi de Goodhart pour l'amélioration de la parole
Résumé

Afin d’obtenir des modèles améliorés de restauration de la parole, les chercheurs se concentrent souvent sur l’optimisation des performances selon des métriques instrumentales spécifiques. Toutefois, lorsqu’une même métrique est utilisée dans une fonction de perte pour entraîner les modèles, cela peut s’avérer néfaste pour des aspects que cette métrique ne prend pas en compte. Ce papier vise à illustrer le risque de surapprentissage d’un modèle de restauration de la parole par rapport à la métrique utilisée pour l’évaluation. À cette fin, nous introduisons des modèles de restauration exploitant la mesure largement utilisée PESQ. Notre modèle « PESQétarien » atteint un score de 3,82 en PESQ sur le benchmark VB-DMD, mais obtient des résultats très médiocres lors d’une évaluation auditive. Bien qu’un score PESQ de 3,82 puisse suggérer une performance « de pointe » sur ce benchmark, nos exemples montrent qu’en optimisant par rapport à une métrique donnée, une évaluation isolée sur la même métrique peut être trompeuse. Il est donc préférable d’inclure d’autres métriques dans l’évaluation, et les prédictions de performance doivent être confirmées par des tests auditifs.