Normalisation Sous-Spectrale pour le Traitement des Données Audio Neurales

Les réseaux de neurones convolutifs sont largement utilisés dans divers domaines du machine learning. En traitement d’images, les caractéristiques sont extraites en appliquant une convolution 2D à toutes les dimensions spatiales d’entrée. Toutefois, dans le cas audio, les entrées dans le domaine fréquentiel, telles que les Mel-Spectrogrammes, présentent des caractéristiques différentes et uniques selon la dimension fréquentielle. Il est donc nécessaire de disposer d’une méthode permettant à la couche de convolution 2D de traiter la dimension fréquentielle de manière distincte. Dans ce travail, nous proposons la Normalisation Sous-Spectrale (SSN), qui consiste à diviser la dimension fréquentielle d’entrée en plusieurs groupes (sous-bandes) et à appliquer une normalisation différente à chacun de ces groupes. La SSN inclut également une transformation affine pouvant être appliquée indépendamment à chaque sous-bande. Notre méthode élimine les déviations inter-fréquentielles tout en permettant au réseau d’apprendre des caractéristiques sensibles à la fréquence. Les expériences menées sur des données audio montrent que la SSN permet d’améliorer efficacement les performances du réseau.