Auffusion: Die Kraft von Diffusionsmodellen und großen Sprachmodellen zur Text-zu-Audio-Generierung nutzen

Neuere Fortschritte in Diffusionsmodellen und großen Sprachmodellen (Large Language Models, LLMs) haben die Entwicklung des AIGC (Artificial Intelligence Generated Content) erheblich vorangetrieben. Text-to-Audio (TTA), eine sich rasch entwickelnde Anwendung im Bereich des AIGC, die Audio aus natürlichen Sprachprompten generiert, gewinnt zunehmend an Aufmerksamkeit. Allerdings leiden bestehende TTA-Studien häufig an geringer Generationsqualität und unzureichender Text-Audio-Alignment, insbesondere bei komplexen textuellen Eingaben. Inspiriert durch die neuesten Text-to-Image (T2I)-Diffusionsmodelle stellen wir Auffusion vor, ein TTA-System, das bestehende T2I-Modellarchitekturen effizient an die TTA-Aufgabe anpasst, indem es deren inhärente generative Stärken und präzise cross-modale Alignment-Fähigkeiten gezielt nutzt. Unsere objektiven und subjektiven Evaluierungen zeigen, dass Auffusion bestehende TTA-Ansätze bei begrenzten Daten- und Rechenressourcen deutlich übertrifft. Zudem haben frühere T2I-Studien den erheblichen Einfluss der Encoder-Auswahl auf die cross-modale Alignment – beispielsweise hinsichtlich feinster Details und Objektbindungen – erkannt, während vergleichbare Bewertungen in vorangegangenen TTA-Arbeiten fehlen. Durch umfassende Ablationsstudien und innovative Visualisierungen von Cross-Attention-Maps liefern wir tiefgreifende Einsichten in die Text-Audio-Alignment im TTA. Unsere Ergebnisse belegen Auffusions überlegene Fähigkeit, Audiodaten zu erzeugen, die präzise den textuellen Beschreibungen entsprechen, was sich auch in mehreren verwandten Anwendungen wie Audio-Style-Transfer, Inpainting und anderen Manipulationen bestätigt. Die Implementierung und interaktive Demonstrationen sind unter https://auffusion.github.io verfügbar.