Retrieval-Augmented Text-to-Audio-Generierung

Trotz der jüngsten Fortschritte in der Text-zu-Audio-(TTA)-Generierung zeigen wir, dass state-of-the-art-Modelle wie AudioLDM, die auf Datensätzen mit unausgewogener Klassenverteilung wie AudioCaps trainiert wurden, in ihrer Generierungsfähigkeit verzerrt sind. Insbesondere erzielen sie hervorragende Ergebnisse bei der Generierung häufiger Audio-Klassen, während sie bei seltenen Klassen unterdurchschnittlich abschneiden, was die Gesamtleistung der Generierung beeinträchtigt. Wir bezeichnen dieses Problem als langschwänzige Text-zu-Audio-Generierung. Um dieses Problem anzugehen, schlagen wir einen einfachen, retrieval-erweiterten Ansatz für TTA-Modelle vor. Konkret nutzen wir bei einem gegebenen Textprompt zunächst ein Contrastive Language Audio Pretraining (CLAP)-Modell, um relevante Text-Audio-Paare zu retrieven. Die Merkmale der abgerufenen Audio-Text-Daten dienen dann als zusätzliche Bedingungen, um das Lernen der TTA-Modelle zu leiten. Wir erweitern AudioLDM durch unseren vorgeschlagenen Ansatz und bezeichnen das resultierende System als Re-AudioLDM. Auf dem AudioCaps-Datensatz erreicht Re-AudioLDM eine state-of-the-art-Frechet Audio Distance (FAD) von 1,37 und übertrifft damit bestehende Ansätze deutlich. Darüber hinaus zeigen wir, dass Re-AudioLDM realistische Audiodaten für komplexe Szenen, seltene Audio-Klassen und sogar bisher nicht gesehene Audiotypen generieren kann, was dessen Potenzial für TTA-Aufgaben unterstreicht.