vor 19 Tagen
EnCLAP: Kombination eines neuronalen Audio-Codec und gemeinsamer Audio-Text-Embedding für die automatisierte Audio-Kommentierung
Jaeyeon Kim, Jaeyoon Jung, Jinjoo Lee, Sang Hoon Woo

Abstract
Wir stellen EnCLAP, einen neuartigen Rahmen für die automatisierte Audio-Kommentierung, vor. EnCLAP nutzt zwei akustische Repräsentationsmodelle, EnCodec und CLAP, sowie ein vortrainiertes Sprachmodell, BART. Zudem führen wir ein neues Trainingsziel ein, das sogenannte masked codec modeling, welches die akustische Aufmerksamkeit des vortrainierten Sprachmodells verbessert. Experimentelle Ergebnisse auf den Datensätzen AudioCaps und Clotho zeigen, dass unser Modell die Leistung von Baseline-Modellen übertrifft. Der Quellcode wird unter https://github.com/jaeyeonkim99/EnCLAP verfügbar sein. Eine Online-Demo ist über https://huggingface.co/spaces/enclap-team/enclap zugänglich.