HyperAIHyperAI
il y a 17 jours

Normalisation Sous-Spectrale pour le Traitement des Données Audio Neurales

Simyung Chang, Hyoungwoo Park, Janghoon Cho, Hyunsin Park, Sungrack Yun, Kyuwoong Hwang
Normalisation Sous-Spectrale pour le Traitement des Données Audio Neurales
Résumé

Les réseaux de neurones convolutifs sont largement utilisés dans divers domaines du machine learning. En traitement d’images, les caractéristiques sont extraites en appliquant une convolution 2D à toutes les dimensions spatiales d’entrée. Toutefois, dans le cas audio, les entrées dans le domaine fréquentiel, telles que les Mel-Spectrogrammes, présentent des caractéristiques différentes et uniques selon la dimension fréquentielle. Il est donc nécessaire de disposer d’une méthode permettant à la couche de convolution 2D de traiter la dimension fréquentielle de manière distincte. Dans ce travail, nous proposons la Normalisation Sous-Spectrale (SSN), qui consiste à diviser la dimension fréquentielle d’entrée en plusieurs groupes (sous-bandes) et à appliquer une normalisation différente à chacun de ces groupes. La SSN inclut également une transformation affine pouvant être appliquée indépendamment à chaque sous-bande. Notre méthode élimine les déviations inter-fréquentielles tout en permettant au réseau d’apprendre des caractéristiques sensibles à la fréquence. Les expériences menées sur des données audio montrent que la SSN permet d’améliorer efficacement les performances du réseau.