Audio Captioning
L'audio captioning est la tâche consistant à convertir le contenu audio en descriptions textuelles. Son objectif principal est de capturer les caractéristiques audio grâce à un encodeur audio, puis de générer des descriptions en langage naturel à l'aide d'un décodeur, afin d'atteindre une compréhension et une expression précises du contenu audio. Cette tâche présente une valeur d'application importante dans l'analyse de contenu multimédia et l'assistance aux personnes malentendantes pour comprendre les informations audio. Cependant, les métriques d'évaluation existantes pour la traduction automatique et le captioning d'images ne sont pas entièrement adaptées pour évaluer la qualité des descriptions audio. Les chercheurs explorent donc l'utilisation de nouvelles méthodes d'évaluation, telles que les modèles de langage pré-entraînés comme Sentence-BERT.