HyperAIHyperAI
vor 3 Monaten

Text-to-Audio-Generierung mithilfe eines instruktionsgetunten LLM und eines latente Diffusionsmodells

Deepanway Ghosal, Navonil Majumder, Ambuj Mehrish, Soujanya Poria
Text-to-Audio-Generierung mithilfe eines instruktionsgetunten LLM und eines latente Diffusionsmodells
Abstract

Die immense Skalierung der jüngsten großen Sprachmodelle (LLM) ermöglicht zahlreiche interessante Eigenschaften, wie beispielsweise die Anpassung an Anweisungen und die Verwendung von „Chain-of-Thought“-Fine-Tuning, welche die Leistung bei Null- und Few-Shot-Aufgaben in vielen Aufgabenfeldern der natürlichen Sprachverarbeitung (NLP) erheblich verbessert haben. Inspiriert durch diese Erfolge setzen wir ein instruktionsangepasstes LLM, Flan-T5, als Text-Encoder für die Text-zu-Audio-(TTA)-Generierung ein – eine Aufgabe, bei der das Ziel darin besteht, aus einer textuellen Beschreibung Audio zu generieren. Frühere Ansätze zur TTA haben entweder einen gemeinsamen Text-Audio-Encoder vortrainiert oder ein nicht-instruktionstuntes Modell wie T5 verwendet. Daher übertrifft unser auf einer latenzbasierten Diffusionsmodell-(LDM)-Basis aufgebautes Verfahren TANGO die State-of-the-Art-Methode AudioLDM in den meisten Metriken und bleibt auf den verbleibenden vergleichbar, obwohl das LDM auf einem Datensatz trainiert wurde, der 63-mal kleiner ist, und der Text-Encoder fixiert wurde. Diese Verbesserung könnte zudem auf die Verwendung einer auf dem Schalldruckpegel basierenden Audio-Mischung zur Datenaugmentation zurückzuführen sein, während frühere Methoden eine zufällige Mischung verwendeten.

Text-to-Audio-Generierung mithilfe eines instruktionsgetunten LLM und eines latente Diffusionsmodells | Forschungsarbeiten | HyperAI