HyperAIHyperAI

Command Palette

Search for a command to run...

Zero-Shot Audio Captioning via Audibility Guidance La légendage audio zéro-shot guidé par l'audibilité

Tal Shaharabany Ariel Shaulov Lior Wolf

Résumé

La tâche de légendage audio est, en essence, similaire à des tâches comme le légendage d'images et de vidéos. Cependant, elle a reçu beaucoup moins d'attention. Nous proposons trois critères pour le légendage audio : (i) la fluidité du texte généré, (ii) la fidélité du texte généré à l'audio d'entrée, et (iii) l'audibilité, qui est la qualité de pouvoir être perçue uniquement sur la base de l'audio. Notre méthode est une méthode zero-shot, c'est-à-dire que nous n'apprenons pas à effectuer le légendage. Au lieu de cela, le légendage se produit lors d'un processus d'inférence impliquant trois réseaux correspondant aux trois qualités souhaitées : (i) un grand modèle linguistique, dans notre cas, pour des raisons de commodité, GPT-2, (ii) un modèle qui fournit un score de correspondance entre un fichier audio et un texte, pour lequel nous utilisons un réseau de correspondance multimodale appelé ImageBind, et (iii) un classifieur de texte formé à l'aide d'un ensemble de données que nous avons collecté automatiquement en instruisant GPT-4 avec des prompts conçus pour diriger la génération de phrases audibles et inaudibles. Nous présentons nos résultats sur l'ensemble de données AudioCap, démontrant que la guidance auditive améliore considérablement les performances par rapport au modèle de référence qui ne dispose pas de cet objectif.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Zero-Shot Audio Captioning via Audibility Guidance La légendage audio zéro-shot guidé par l'audibilité | Articles | HyperAI