il y a 8 mois

Résumé

La détection d'événements sonores (SED) est un défi dans les environnements bruyants où des sons superposés masquent les événements cibles. La séparation de sources audio guidée par la langue (LASS) vise à isoler les événements sonores cibles d'un enregistrement bruyant. Cependant, cette approche peut échouer lorsque le son cible exact n'est pas connu, en particulier dans des ensembles de tests bruyants, ce qui entraîne une diminution des performances. Pour résoudre ce problème, nous exploitons les capacités des grands modèles linguistiques (LLMs) pour analyser et résumer les données acoustiques. En utilisant les LLMs pour identifier et sélectionner des types spécifiques de bruit, nous mettons en œuvre une méthode d'augmentation du bruit pour l'affinage robuste au bruit. Le modèle affiné est ensuite appliqué pour prédire les événements clip par clip sous forme de requêtes textuelles pour le modèle LASS. Nos études montrent que la méthode proposée améliore les performances de la SED dans les environnements bruyants. Ce travail représente une application précoce des LLMs dans la SED robuste au bruit et suggère une direction prometteuse pour la gestion des événements superposés dans la SED. Les codes et les modèles préentraînés sont disponibles à l'adresse suivante : https://github.com/apple-yinhan/Noise-robust-SED.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Traitement Audio Et Vocal

Han Yin Yang Xiao Jisheng Bai Rohan Kumar Das

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Traitement Audio Et Vocal

Han Yin Yang Xiao Jisheng Bai Rohan Kumar Das

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Utilisation des LLM et de la séparation guidée par le texte pour une détection robuste des événements sonores en présence de bruit | Articles | HyperAI

Command Palette

Utilisation des LLM et de la séparation guidée par le texte pour une détection robuste des événements sonores en présence de bruit

Han Yin Yang Xiao Jisheng Bai Rohan Kumar Das

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Utilisation des LLM et de la séparation guidée par le texte pour une détection robuste des événements sonores en présence de bruit

Han Yin Yang Xiao Jisheng Bai Rohan Kumar Das

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Utilisation des LLM et de la séparation guidée par le texte pour une détection robuste des événements sonores en présence de bruit

Han Yin Yang Xiao Jisheng Bai Rohan Kumar Das

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters