vor 19 Tagen

EnCLAP: Kombination eines neuronalen Audio-Codec und gemeinsamer Audio-Text-Embedding für die automatisierte Audio-Kommentierung

Jaeyeon Kim, Jaeyoon Jung, Jinjoo Lee, Sang Hoon Woo

Abstract

Wir stellen EnCLAP, einen neuartigen Rahmen für die automatisierte Audio-Kommentierung, vor. EnCLAP nutzt zwei akustische Repräsentationsmodelle, EnCodec und CLAP, sowie ein vortrainiertes Sprachmodell, BART. Zudem führen wir ein neues Trainingsziel ein, das sogenannte masked codec modeling, welches die akustische Aufmerksamkeit des vortrainierten Sprachmodells verbessert. Experimentelle Ergebnisse auf den Datensätzen AudioCaps und Clotho zeigen, dass unser Modell die Leistung von Baseline-Modellen übertrifft. Der Quellcode wird unter https://github.com/jaeyeonkim99/EnCLAP verfügbar sein. Eine Online-Demo ist über https://huggingface.co/spaces/enclap-team/enclap zugänglich.