HyperAIHyperAI

Command Palette

Search for a command to run...

RÉDACTION AUTOMATIQUE DE LÉGENDES AUDIO PAR AFFINAGE DE BART À L'AIDE D'ÉTIQUETTES AUDIOSET

Christophe Cerisara Romain Serizel F ́elix Gontier

Résumé

La génération automatique de légendes audio est une tâche multimodale visant à décrire des enregistrements sonores environnementaux à l’aide d’un langage naturel fluide. La plupart des méthodes actuelles exploitent des modèles d’analyse préentraînés pour extraire le contenu sémantique pertinent à partir de l’entrée audio. Toutefois, l’information préalable sur le modèle de langage est rarement intégrée, et les architectures correspondantes sont limitées en capacité en raison de la rareté des données. Dans cet article, nous proposons une méthode qui exploite l’information linguistique contenue dans BART, un grand modèle de langage conditionnel préentraîné de manière générale. La génération de légendes est conditionnée par des séquences d’étiquettes textuelles AudioSet. Cette entrée est enrichie par des embeddings audio alignés temporellement, ce qui permet au modèle d’améliorer la reconnaissance des événements sonores. L’architecture complète de BART est fine-tunée avec un nombre réduit de paramètres supplémentaires. Les résultats expérimentaux démontrent que, au-delà des propriétés d’échelle de l’architecture, un préentraînement uniquement linguistique améliore la qualité du texte dans le cadre multimodal de la génération de légendes audio. Le meilleur modèle atteint une performance de pointe sur AudioCaps, avec un score de 46,5 SPIDEr.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp