HyperAIHyperAI

Command Palette

Search for a command to run...

ROSE : Un cadre de renforcement de parole orienté reconnaissance en contrôle de la circulation aérienne utilisant un apprentissage multi-objectifs

Xincheng Yu Dongyue Guo Jianwei Zhang Yi Lin

Résumé

L’écho de parole radio est un phénomène spécifique dans le domaine du contrôle de la circulation aérienne (ATC), qui dégrade la qualité de la parole et affecte par la suite la précision de la reconnaissance automatique de la parole (ASR). Dans ce travail, un cadre d’amélioration du signal vocal orienté reconnaissance (ROSE) en domaine temporel est proposé afin d’améliorer l’intelligibilité vocale et d’augmenter la performance de l’ASR, basé sur une architecture U-Net à encodeur-décodeur convolutif. Ce cadre peut être utilisé comme outil plug-and-play dans les scénarios ATC sans nécessiter de re-entraînement supplémentaire du modèle ASR. Plus précisément : 1) Dans l’architecture U-Net, un module de fusion par saut basé sur l’attention (ABSF) est introduit pour extraire des caractéristiques partagées des encodeurs à l’aide d’un masque d’attention, permettant ainsi au modèle de fusionner efficacement les caractéristiques hiérarchiques ; 2) Un module innovant d’attention sur les canaux et les séquences (CSAtt) est conçu pour guider le modèle à se concentrer sur les caractéristiques informatives au sein de deux chemins parallèles d’attention, visant à renforcer les représentations efficaces et à supprimer les bruits parasites ; 3) À partir de caractéristiques prédéfinies, des objectifs d’optimisation orientés ASR sont définis pour améliorer les performances de reconnaissance dans l’environnement ATC, en apprenant des représentations de caractéristiques robustes. En intégrant à la fois les pertes orientées amélioration du signal (SE) et les pertes orientées ASR, ROSE est mis en œuvre selon une approche d’apprentissage multi-objectifs, en optimisant des représentations partagées entre les deux objectifs. Les résultats expérimentaux montrent que ROSE surpassent significativement les méthodes de pointe existantes pour les tâches SE et ASR, et que toutes les améliorations proposées sont confirmées par des expériences soigneusement conçues. En outre, l’approche proposée permet d’obtenir des améliorations de performance souhaitées sur des jeux de données publics.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp