HyperAIHyperAI
il y a 9 jours

SLAM-AAC : Amélioration de la captioning audio grâce à une augmentation par paraphrase et à un raffinement CLAP via les LLM

Wenxi Chen, Ziyang Ma, Xiquan Li, Xuenan Xu, Yuzhe Liang, Zhisheng Zheng, Kai Yu, Xie Chen
SLAM-AAC : Amélioration de la captioning audio grâce à une augmentation par paraphrase et à un raffinement CLAP via les LLM
Résumé

La captioning audio automatisé (AAC) vise à générer des descriptions textuelles naturelles à partir de signaux audio d'entrée. Les progrès récents dans les modèles pré-entraînés audio et les grands modèles linguistiques (LLM) ont considérablement amélioré les capacités de compréhension audio et de raisonnement textuel, rendant ainsi possible une progression significative dans le domaine de l'AAC. Dans cet article, nous proposons SLAM-AAC, une approche qui améliore davantage l'AAC grâce à une augmentation par reformulation et à une phase de raffinement CLAP, toutes deux fondées sur les LLM. Notre méthode utilise le modèle auto-supervisé EAT pour extraire des représentations audio à haute granularité, qui sont ensuite alignées avec des embeddings textuels à l’aide de couches linéaires légères. Le modèle LLM chargé de la génération de légendes est efficacement fine-tuné à l’aide de l’adaptateur LoRA. Inspirés de la méthode de back-translation utilisée en traduction automatique, nous avons mis en œuvre une augmentation par reformulation afin d’étendre le jeu de données Clotho durant l’étape de pré-entraînement. Cette stratégie permet de surmonter la limitation liée à la rareté des paires audio-texte et de générer des légendes plus diversifiées à partir d’un petit ensemble d’extraits audio. Lors de l’inférence, nous introduisons une stratégie plug-and-play, CLAP-Refine, pour exploiter pleinement les sorties de décodage multiples, similaire à la stratégie de rescoring n-best utilisée en reconnaissance vocale. En utilisant le modèle CLAP pour calculer la similarité entre audio et texte, nous sélectionnons les descriptions textuelles produites par plusieurs faisceaux de recherche qui correspondent le mieux à l’audio d’entrée. Les résultats expérimentaux montrent que SLAM-AAC atteint des performances de pointe sur Clotho V2 et AudioCaps, surpassant ainsi les modèles principaux précédents.

SLAM-AAC : Amélioration de la captioning audio grâce à une augmentation par paraphrase et à un raffinement CLAP via les LLM | Articles de recherche récents | HyperAI