HyperAIHyperAI

Command Palette

Search for a command to run...

Auffusion: Die Kraft von Diffusionsmodellen und großen Sprachmodellen zur Text-zu-Audio-Generierung nutzen

Jinlong Xue Yayue Deng Yingming Gao Ya Li

Zusammenfassung

Neuere Fortschritte in Diffusionsmodellen und großen Sprachmodellen (Large Language Models, LLMs) haben die Entwicklung des AIGC (Artificial Intelligence Generated Content) erheblich vorangetrieben. Text-to-Audio (TTA), eine sich rasch entwickelnde Anwendung im Bereich des AIGC, die Audio aus natürlichen Sprachprompten generiert, gewinnt zunehmend an Aufmerksamkeit. Allerdings leiden bestehende TTA-Studien häufig an geringer Generationsqualität und unzureichender Text-Audio-Alignment, insbesondere bei komplexen textuellen Eingaben. Inspiriert durch die neuesten Text-to-Image (T2I)-Diffusionsmodelle stellen wir Auffusion vor, ein TTA-System, das bestehende T2I-Modellarchitekturen effizient an die TTA-Aufgabe anpasst, indem es deren inhärente generative Stärken und präzise cross-modale Alignment-Fähigkeiten gezielt nutzt. Unsere objektiven und subjektiven Evaluierungen zeigen, dass Auffusion bestehende TTA-Ansätze bei begrenzten Daten- und Rechenressourcen deutlich übertrifft. Zudem haben frühere T2I-Studien den erheblichen Einfluss der Encoder-Auswahl auf die cross-modale Alignment – beispielsweise hinsichtlich feinster Details und Objektbindungen – erkannt, während vergleichbare Bewertungen in vorangegangenen TTA-Arbeiten fehlen. Durch umfassende Ablationsstudien und innovative Visualisierungen von Cross-Attention-Maps liefern wir tiefgreifende Einsichten in die Text-Audio-Alignment im TTA. Unsere Ergebnisse belegen Auffusions überlegene Fähigkeit, Audiodaten zu erzeugen, die präzise den textuellen Beschreibungen entsprechen, was sich auch in mehreren verwandten Anwendungen wie Audio-Style-Transfer, Inpainting und anderen Manipulationen bestätigt. Die Implementierung und interaktive Demonstrationen sind unter https://auffusion.github.io verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Auffusion: Die Kraft von Diffusionsmodellen und großen Sprachmodellen zur Text-zu-Audio-Generierung nutzen | Paper | HyperAI