HyperAIHyperAI

Command Palette

Search for a command to run...

Captioning audio en zero-shot avec la guidance d'un modèle audio-langue et des mots-clés de contexte audio

Leonard Salewski Stefan Fauth A. Sophia Koepke Zeynep Akata

Résumé

La caption audio zéro-shot vise à générer automatiquement des légendes textuelles descriptives pour du contenu audio sans formation préalable spécifique à cette tâche. Contrairement à la reconnaissance vocale, qui traduit le contenu audio contenant du langage parlé en texte, la caption audio est généralement axée sur les sons ambiants ou les sons produits par une personne effectuant une action. Inspirés par les méthodes de caption d'images zéro-shot, nous proposons ZerAuCap, un cadre novateur permettant de résumer de tels signaux audio généraux sous forme de légende textuelle sans nécessiter une formation spécifique à la tâche. Plus particulièrement, notre cadre exploite un grand modèle linguistique (LLM) pré-entraîné pour générer le texte, guidé par un modèle pré-entraîné audio-langage afin de produire des légendes décrivant le contenu audio. De plus, nous utilisons des mots-clés contextuels audio pour inciter le modèle linguistique à générer un texte largement pertinent aux sons. Notre cadre proposé obtient des résultats de pointe en caption audio zéro-shot sur les jeux de données AudioCaps et Clotho. Notre code est disponible sur https://github.com/ExplainableML/ZerAuCap.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp