HyperAIHyperAI

Command Palette

Search for a command to run...

Captioning audio utilisant des unités récurrentes à portes

Ayşegül Özkaya Eren Mustafa Sert

Résumé

La captioning audio est une tâche récemment proposée visant à générer automatiquement une description textuelle à partir d’un clip audio donné. Dans cette étude, une nouvelle architecture de réseau profond utilisant des embeddings audio est présentée pour prédire des captions audio. Dans le but d’extraire des caractéristiques audio en complément des énergies log-Mel, le modèle d’embeddings audio VGGish est employé afin d’explorer la faisabilité des embeddings audio dans la tâche de captioning audio. L’architecture proposée encode les modalités audio et textuelle de manière séparée, avant de les combiner à l’étape de décodage. L’encodage audio est réalisé à l’aide d’un unité récurrente à portes bidirectionnelle (BiGRU), tandis que le GRU est utilisé pour l’étape d’encodage textuel. Par la suite, nous évaluons notre modèle à l’aide du nouveau jeu de données de performance en captioning audio récemment publié, nommé Clotho, afin de comparer les résultats expérimentaux avec ceux de la littérature. Nos résultats expérimentaux montrent que le modèle profond basé sur le BiGRU proposé surpasse les résultats de l’état de l’art.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Captioning audio utilisant des unités récurrentes à portes | Articles | HyperAI