vor 17 Tagen

Auffusion: Die Kraft von Diffusionsmodellen und großen Sprachmodellen zur Text-zu-Audio-Generierung nutzen

Jinlong Xue, Yayue Deng, Yingming Gao, Ya Li

Abstract

Neuere Fortschritte in Diffusionsmodellen und großen Sprachmodellen (Large Language Models, LLMs) haben die Entwicklung des AIGC (Artificial Intelligence Generated Content) erheblich vorangetrieben. Text-to-Audio (TTA), eine sich rasch entwickelnde Anwendung im Bereich des AIGC, die Audio aus natürlichen Sprachprompten generiert, gewinnt zunehmend an Aufmerksamkeit. Allerdings leiden bestehende TTA-Studien häufig an geringer Generationsqualität und unzureichender Text-Audio-Alignment, insbesondere bei komplexen textuellen Eingaben. Inspiriert durch die neuesten Text-to-Image (T2I)-Diffusionsmodelle stellen wir Auffusion vor, ein TTA-System, das bestehende T2I-Modellarchitekturen effizient an die TTA-Aufgabe anpasst, indem es deren inhärente generative Stärken und präzise cross-modale Alignment-Fähigkeiten gezielt nutzt. Unsere objektiven und subjektiven Evaluierungen zeigen, dass Auffusion bestehende TTA-Ansätze bei begrenzten Daten- und Rechenressourcen deutlich übertrifft. Zudem haben frühere T2I-Studien den erheblichen Einfluss der Encoder-Auswahl auf die cross-modale Alignment – beispielsweise hinsichtlich feinster Details und Objektbindungen – erkannt, während vergleichbare Bewertungen in vorangegangenen TTA-Arbeiten fehlen. Durch umfassende Ablationsstudien und innovative Visualisierungen von Cross-Attention-Maps liefern wir tiefgreifende Einsichten in die Text-Audio-Alignment im TTA. Unsere Ergebnisse belegen Auffusions überlegene Fähigkeit, Audiodaten zu erzeugen, die präzise den textuellen Beschreibungen entsprechen, was sich auch in mehreren verwandten Anwendungen wie Audio-Style-Transfer, Inpainting und anderen Manipulationen bestätigt. Die Implementierung und interaktive Demonstrationen sind unter https://auffusion.github.io verfügbar.