il y a 6 mois

Résumé

La génération automatique de légendes audio est une tâche multimodale visant à décrire des enregistrements sonores environnementaux à l’aide d’un langage naturel fluide. La plupart des méthodes actuelles exploitent des modèles d’analyse préentraînés pour extraire le contenu sémantique pertinent à partir de l’entrée audio. Toutefois, l’information préalable sur le modèle de langage est rarement intégrée, et les architectures correspondantes sont limitées en capacité en raison de la rareté des données. Dans cet article, nous proposons une méthode qui exploite l’information linguistique contenue dans BART, un grand modèle de langage conditionnel préentraîné de manière générale. La génération de légendes est conditionnée par des séquences d’étiquettes textuelles AudioSet. Cette entrée est enrichie par des embeddings audio alignés temporellement, ce qui permet au modèle d’améliorer la reconnaissance des événements sonores. L’architecture complète de BART est fine-tunée avec un nombre réduit de paramètres supplémentaires. Les résultats expérimentaux démontrent que, au-delà des propriétés d’échelle de l’architecture, un préentraînement uniquement linguistique améliore la qualité du texte dans le cadre multimodal de la génération de légendes audio. Le meilleur modèle atteint une performance de pointe sur AudioCaps, avec un score de 46,5 SPIDEr.

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Multimodal

Représentation Multimodale

Traitement Audio Et Vocal

Audio

Multimodal

Tâche

Christophe Cerisara Romain Serizel F ́elix Gontier

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Multimodal

Représentation Multimodale

Traitement Audio Et Vocal

Audio

Multimodal

Tâche

Christophe Cerisara Romain Serizel F ́elix Gontier

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

RÉDACTION AUTOMATIQUE DE LÉGENDES AUDIO PAR AFFINAGE DE BART À L'AIDE D'ÉTIQUETTES AUDIOSET

Christophe Cerisara Romain Serizel F ́elix Gontier

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

RÉDACTION AUTOMATIQUE DE LÉGENDES AUDIO PAR AFFINAGE DE BART À L'AIDE D'ÉTIQUETTES AUDIOSET

Christophe Cerisara Romain Serizel F ́elix Gontier

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

RÉDACTION AUTOMATIQUE DE LÉGENDES AUDIO PAR AFFINAGE DE BART À L'AIDE D'ÉTIQUETTES AUDIOSET

Christophe Cerisara Romain Serizel F ́elix Gontier

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters