Amélioration de la génération automatique de légendes audio par l’utilisation de grands modèles linguistiques avec une encodage audio optimisé

La captioning audio automatisé (AAC) est une tâche de conversion audio en texte visant à décrire le contenu audio à l’aide d’un langage naturel. Récemment, les progrès réalisés dans les modèles linguistiques massifs (LLM), conjugués aux améliorations des méthodes d’entraînement des encodeurs audio, ont ouvert la voie à des avancées significatives dans le domaine de l’AAC. Dans cette étude, nous explorons l’amélioration de l’AAC sous trois angles : 1) l’utilisation d’un encodeur audio pré-entraîné, optimisé par une distillation ensembliste cohérente (CED), afin d’améliorer l’efficacité des tokens acoustiques, combinée à un transformateur de requête (Q-Former) pour combler l’écart modal entre les données audio et le LLM, tout en compressant les tokens acoustiques ; 2) nous examinons les avantages d’adopter un modèle Llama 2 de 7 milliards de paramètres comme décodeur ; 3) un autre LLM pré-entraîné corrige les erreurs de texte dues à un manque de données d’entraînement et à des ambiguïtés dans les annotations. Les encodeurs audio et les décodeurs textuels sont tous deux optimisés par adaptation à faible rang (LoRA). Les expérimentations démontrent que chacune de ces améliorations est efficace. Notre méthode atteint un score SPIDEr-FL de 33,0, surpassant ainsi le gagnant de la tâche 6A du DCASE 2023.