il y a 17 jours
EnCLAP++ : Analyse du cadre EnCLAP pour l'optimisation des performances de la génération automatique de légendes audio
Jaeyeon Kim, Minjeon Jeon, Jaeyoon Jung, Sang Hoon Woo, Jinjoo Lee

Résumé
Dans ce travail, nous visons à analyser et à optimiser le cadre EnCLAP, un modèle de pointe dans le domaine de la génération automatique de légendes audio. Nous étudions l'impact de la modification des composants de l'encodeur acoustique, explorons le pré-entraînement avec des jeux de données de différentes tailles, et examinons l'efficacité d'une stratégie de réordonnancement (reranking). Grâce à une série d'expérimentations approfondies et à une analyse quantitative des légendes générées, nous proposons EnCLAP++, une version améliorée qui surpasse significativement la version originale.