HyperAIHyperAI
il y a 2 mois

Utilisation des LLM et de la séparation guidée par le texte pour une détection robuste des événements sonores en présence de bruit

Yin, Han ; Xiao, Yang ; Bai, Jisheng ; Das, Rohan Kumar
Utilisation des LLM et de la séparation guidée par le texte pour une détection robuste des événements sonores en présence de bruit
Résumé

La détection d'événements sonores (SED) est un défi dans les environnements bruyants où des sons superposés masquent les événements cibles. La séparation de sources audio guidée par la langue (LASS) vise à isoler les événements sonores cibles d'un enregistrement bruyant. Cependant, cette approche peut échouer lorsque le son cible exact n'est pas connu, en particulier dans des ensembles de tests bruyants, ce qui entraîne une diminution des performances. Pour résoudre ce problème, nous exploitons les capacités des grands modèles linguistiques (LLMs) pour analyser et résumer les données acoustiques. En utilisant les LLMs pour identifier et sélectionner des types spécifiques de bruit, nous mettons en œuvre une méthode d'augmentation du bruit pour l'affinage robuste au bruit. Le modèle affiné est ensuite appliqué pour prédire les événements clip par clip sous forme de requêtes textuelles pour le modèle LASS. Nos études montrent que la méthode proposée améliore les performances de la SED dans les environnements bruyants. Ce travail représente une application précoce des LLMs dans la SED robuste au bruit et suggère une direction prometteuse pour la gestion des événements superposés dans la SED. Les codes et les modèles préentraînés sont disponibles à l'adresse suivante : https://github.com/apple-yinhan/Noise-robust-SED.

Utilisation des LLM et de la séparation guidée par le texte pour une détection robuste des événements sonores en présence de bruit | Articles de recherche récents | HyperAI