HyperAIHyperAI
il y a 19 jours

EnCLAP : Combinaison d'un Codec Audio Neuronal et d'une Embedding Conjoints Audio-Text pour la Génération Automatique de Légendes Audio

Jaeyeon Kim, Jaeyoon Jung, Jinjoo Lee, Sang Hoon Woo
EnCLAP : Combinaison d'un Codec Audio Neuronal et d'une Embedding Conjoints Audio-Text pour la Génération Automatique de Légendes Audio
Résumé

Nous proposons EnCLAP, un cadre novateur pour la génération automatique de légendes audio. EnCLAP utilise deux modèles de représentation acoustique, EnCodec et CLAP, ainsi qu’un modèle linguistique préentraîné, BART. Nous introduisons également une nouvelle fonction de formation appelée masked codec modeling, qui améliore la sensibilité acoustique du modèle linguistique préentraîné. Les résultats expérimentaux sur les jeux de données AudioCaps et Clotho montrent que notre modèle dépasse les performances des modèles de référence. Le code source sera disponible à l’adresse suivante : https://github.com/jaeyeonkim99/EnCLAP. Une démonstration en ligne est accessible via : https://huggingface.co/spaces/enclap-team/enclap.