il y a 16 jours

Correction de spectre : Classification de scènes acoustiques avec des dispositifs de enregistrement non conformes

Michał Kośmider

Résumé

Les algorithmes d’apprentissage automatique, lorsqu’ils sont entraînés sur des enregistrements audio provenant d’un ensemble limité de dispositifs, peuvent présenter une mauvaise généralisation sur des échantillons enregistrés à l’aide d’autres dispositifs présentant des réponses en fréquence différentes. Dans ce travail, une méthode relativement simple est proposée pour résoudre ce problème. Deux variantes de l’approche sont présentées : la première nécessite des exemples alignés provenant de plusieurs dispositifs, tandis que la seconde réduit cette contrainte. La méthode est applicable aussi bien aux représentations temporelles qu’à celles dans le domaine fréquentiel des enregistrements audio. En outre, une analyse de la relation entre cette approche et les techniques de standardisation ainsi que de la soustraction de moyenne cepstrale est effectuée. La méthode s’avère efficace même lorsque très peu d’exemples sont disponibles. Elle a été développée dans le cadre du défi Detection and Classification of Acoustic Scenes and Events (DCASE) 2019, où elle a remporté la première place dans la scène avec des dispositifs d’enregistrement incompatibles, avec une précision de 75 %. Le code source utilisé dans les expériences est disponible en ligne.