HyperAIHyperAI
il y a 2 mois

Pousser les limites de la détection d'événements sonores avec une convolution dynamique multi-dilatée fréquentielle

Nam, Hyeonuk ; Park, Yong-Hwa
Pousser les limites de la détection d'événements sonores avec une convolution dynamique multi-dilatée fréquentielle
Résumé

La convolution dynamique fréquentielle (FDY conv) a été une pierre angulaire dans le domaine de la détection d'événements sonores (SED), mais elle entraîne une augmentation substantielle de la taille du modèle en raison de l'utilisation de plusieurs noyaux de base. Dans ce travail, nous proposons la convolution dynamique fréquentielle partielle (PFD conv), qui concatène les sorties obtenues par convolution 2D conventionnelle et FDY conv, respectivement en tant que branches statiques et dynamiques. Le PFD-CRNN, avec une proportion de sortie de la branche dynamique égale à un huitième, réduit de 51,9 % le nombre de paramètres par rapport au FDY-CRNN tout en conservant les performances. De plus, nous proposons la convolution dynamique fréquentielle multi-dilatée (MDFD conv), qui intègre plusieurs branches de convolution dynamique fréquentielle dilatée (DFD conv) avec des ensembles de tailles de dilatation différents et une branche statique au sein d'une seule couche de convolution. Le meilleur MDFD-CRNN obtenu, comprenant cinq branches FDY Conv non dilatées, trois branches DFD Conv dilatées différemment et une branche statique, a réalisé une amélioration de 3,17 % du score de détection polyphonique des sons (PSDS) par rapport à la FDY conv sans filtre médian par classe. L'application d'une boîte englobante d'événement sonore comme post-traitement sur le meilleur MDFD-CRNN a permis d'obtenir un vrai PSDS1 de 0,485, qui est le meilleur score actuel dans l'ensemble DESED sans utiliser d'ensemble externe ou un modèle pré-entraîné. À partir des résultats d'études ablatives approfondies, nous avons découvert que non seulement plusieurs branches dynamiques mais aussi une proportion spécifique de branche statique contribuent à l'amélioration de la SED. En outre, des branches dynamiques non dilatées sont nécessaires en complément des branches dynamiques dilatées pour obtenir des performances optimales en SED. Les résultats et les discussions issus des études ablatives renforcent davantage la compréhension et l'utilisabilité des variantes FDY conv.

Pousser les limites de la détection d'événements sonores avec une convolution dynamique multi-dilatée fréquentielle | Articles de recherche récents | HyperAI