HyperAIHyperAI

Command Palette

Search for a command to run...

Normalisation Sous-Spectrale pour le Traitement des Données Audio Neurales

Simyung Chang Hyoungwoo Park Janghoon Cho Hyunsin Park Sungrack Yun Kyuwoong Hwang

Résumé

Les réseaux de neurones convolutifs sont largement utilisés dans divers domaines du machine learning. En traitement d’images, les caractéristiques sont extraites en appliquant une convolution 2D à toutes les dimensions spatiales d’entrée. Toutefois, dans le cas audio, les entrées dans le domaine fréquentiel, telles que les Mel-Spectrogrammes, présentent des caractéristiques différentes et uniques selon la dimension fréquentielle. Il est donc nécessaire de disposer d’une méthode permettant à la couche de convolution 2D de traiter la dimension fréquentielle de manière distincte. Dans ce travail, nous proposons la Normalisation Sous-Spectrale (SSN), qui consiste à diviser la dimension fréquentielle d’entrée en plusieurs groupes (sous-bandes) et à appliquer une normalisation différente à chacun de ces groupes. La SSN inclut également une transformation affine pouvant être appliquée indépendamment à chaque sous-bande. Notre méthode élimine les déviations inter-fréquentielles tout en permettant au réseau d’apprendre des caractéristiques sensibles à la fréquence. Les expériences menées sur des données audio montrent que la SSN permet d’améliorer efficacement les performances du réseau.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp