HyperAIHyperAI

Command Palette

Search for a command to run...

EnCLAP: Kombination eines neuronalen Audio-Codec und gemeinsamer Audio-Text-Embedding für die automatisierte Audio-Kommentierung

Jaeyeon Kim Jaeyoon Jung Jinjoo Lee Sang Hoon Woo

Zusammenfassung

Wir stellen EnCLAP, einen neuartigen Rahmen für die automatisierte Audio-Kommentierung, vor. EnCLAP nutzt zwei akustische Repräsentationsmodelle, EnCodec und CLAP, sowie ein vortrainiertes Sprachmodell, BART. Zudem führen wir ein neues Trainingsziel ein, das sogenannte masked codec modeling, welches die akustische Aufmerksamkeit des vortrainierten Sprachmodells verbessert. Experimentelle Ergebnisse auf den Datensätzen AudioCaps und Clotho zeigen, dass unser Modell die Leistung von Baseline-Modellen übertrifft. Der Quellcode wird unter https://github.com/jaeyeonkim99/EnCLAP verfügbar sein. Eine Online-Demo ist über https://huggingface.co/spaces/enclap-team/enclap zugänglich.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp