HyperAIHyperAI

Command Palette

Search for a command to run...

Utilisation des LLM et de la séparation guidée par le texte pour une détection robuste des événements sonores en présence de bruit

Han Yin Yang Xiao Jisheng Bai Rohan Kumar Das

Résumé

La détection d'événements sonores (SED) est un défi dans les environnements bruyants où des sons superposés masquent les événements cibles. La séparation de sources audio guidée par la langue (LASS) vise à isoler les événements sonores cibles d'un enregistrement bruyant. Cependant, cette approche peut échouer lorsque le son cible exact n'est pas connu, en particulier dans des ensembles de tests bruyants, ce qui entraîne une diminution des performances. Pour résoudre ce problème, nous exploitons les capacités des grands modèles linguistiques (LLMs) pour analyser et résumer les données acoustiques. En utilisant les LLMs pour identifier et sélectionner des types spécifiques de bruit, nous mettons en œuvre une méthode d'augmentation du bruit pour l'affinage robuste au bruit. Le modèle affiné est ensuite appliqué pour prédire les événements clip par clip sous forme de requêtes textuelles pour le modèle LASS. Nos études montrent que la méthode proposée améliore les performances de la SED dans les environnements bruyants. Ce travail représente une application précoce des LLMs dans la SED robuste au bruit et suggère une direction prometteuse pour la gestion des événements superposés dans la SED. Les codes et les modèles préentraînés sont disponibles à l'adresse suivante : https://github.com/apple-yinhan/Noise-robust-SED.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp