HyperAIHyperAI
il y a 17 jours

ROSE : Un cadre de renforcement de parole orienté reconnaissance en contrôle de la circulation aérienne utilisant un apprentissage multi-objectifs

Xincheng Yu, Dongyue Guo, Jianwei Zhang, Yi Lin
ROSE : Un cadre de renforcement de parole orienté reconnaissance en contrôle de la circulation aérienne utilisant un apprentissage multi-objectifs
Résumé

L’écho de parole radio est un phénomène spécifique dans le domaine du contrôle de la circulation aérienne (ATC), qui dégrade la qualité de la parole et affecte par la suite la précision de la reconnaissance automatique de la parole (ASR). Dans ce travail, un cadre d’amélioration du signal vocal orienté reconnaissance (ROSE) en domaine temporel est proposé afin d’améliorer l’intelligibilité vocale et d’augmenter la performance de l’ASR, basé sur une architecture U-Net à encodeur-décodeur convolutif. Ce cadre peut être utilisé comme outil plug-and-play dans les scénarios ATC sans nécessiter de re-entraînement supplémentaire du modèle ASR. Plus précisément : 1) Dans l’architecture U-Net, un module de fusion par saut basé sur l’attention (ABSF) est introduit pour extraire des caractéristiques partagées des encodeurs à l’aide d’un masque d’attention, permettant ainsi au modèle de fusionner efficacement les caractéristiques hiérarchiques ; 2) Un module innovant d’attention sur les canaux et les séquences (CSAtt) est conçu pour guider le modèle à se concentrer sur les caractéristiques informatives au sein de deux chemins parallèles d’attention, visant à renforcer les représentations efficaces et à supprimer les bruits parasites ; 3) À partir de caractéristiques prédéfinies, des objectifs d’optimisation orientés ASR sont définis pour améliorer les performances de reconnaissance dans l’environnement ATC, en apprenant des représentations de caractéristiques robustes. En intégrant à la fois les pertes orientées amélioration du signal (SE) et les pertes orientées ASR, ROSE est mis en œuvre selon une approche d’apprentissage multi-objectifs, en optimisant des représentations partagées entre les deux objectifs. Les résultats expérimentaux montrent que ROSE surpassent significativement les méthodes de pointe existantes pour les tâches SE et ASR, et que toutes les améliorations proposées sont confirmées par des expériences soigneusement conçues. En outre, l’approche proposée permet d’obtenir des améliorations de performance souhaitées sur des jeux de données publics.