HyperAIHyperAI

Command Palette

Search for a command to run...

Retrieval-Augmented Text-to-Audio-Generierung

Yi Yuan Haohe Liu Xubo Liu Qiushi Huang Mark D. Plumbley Wenwu Wang

Zusammenfassung

Trotz der jüngsten Fortschritte in der Text-zu-Audio-(TTA)-Generierung zeigen wir, dass state-of-the-art-Modelle wie AudioLDM, die auf Datensätzen mit unausgewogener Klassenverteilung wie AudioCaps trainiert wurden, in ihrer Generierungsfähigkeit verzerrt sind. Insbesondere erzielen sie hervorragende Ergebnisse bei der Generierung häufiger Audio-Klassen, während sie bei seltenen Klassen unterdurchschnittlich abschneiden, was die Gesamtleistung der Generierung beeinträchtigt. Wir bezeichnen dieses Problem als langschwänzige Text-zu-Audio-Generierung. Um dieses Problem anzugehen, schlagen wir einen einfachen, retrieval-erweiterten Ansatz für TTA-Modelle vor. Konkret nutzen wir bei einem gegebenen Textprompt zunächst ein Contrastive Language Audio Pretraining (CLAP)-Modell, um relevante Text-Audio-Paare zu retrieven. Die Merkmale der abgerufenen Audio-Text-Daten dienen dann als zusätzliche Bedingungen, um das Lernen der TTA-Modelle zu leiten. Wir erweitern AudioLDM durch unseren vorgeschlagenen Ansatz und bezeichnen das resultierende System als Re-AudioLDM. Auf dem AudioCaps-Datensatz erreicht Re-AudioLDM eine state-of-the-art-Frechet Audio Distance (FAD) von 1,37 und übertrifft damit bestehende Ansätze deutlich. Darüber hinaus zeigen wir, dass Re-AudioLDM realistische Audiodaten für komplexe Szenen, seltene Audio-Klassen und sogar bisher nicht gesehene Audiotypen generieren kann, was dessen Potenzial für TTA-Aufgaben unterstreicht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp