Captioning audio utilisant des unités récurrentes à portes

La captioning audio est une tâche récemment proposée visant à générer automatiquement une description textuelle à partir d’un clip audio donné. Dans cette étude, une nouvelle architecture de réseau profond utilisant des embeddings audio est présentée pour prédire des captions audio. Dans le but d’extraire des caractéristiques audio en complément des énergies log-Mel, le modèle d’embeddings audio VGGish est employé afin d’explorer la faisabilité des embeddings audio dans la tâche de captioning audio. L’architecture proposée encode les modalités audio et textuelle de manière séparée, avant de les combiner à l’étape de décodage. L’encodage audio est réalisé à l’aide d’un unité récurrente à portes bidirectionnelle (BiGRU), tandis que le GRU est utilisé pour l’étape d’encodage textuel. Par la suite, nous évaluons notre modèle à l’aide du nouveau jeu de données de performance en captioning audio récemment publié, nommé Clotho, afin de comparer les résultats expérimentaux avec ceux de la littérature. Nos résultats expérimentaux montrent que le modèle profond basé sur le BiGRU proposé surpasse les résultats de l’état de l’art.