Make-An-Audio 2: Zeitlich Verbesserte Text-zu-Audio-Generierung

Große Diffusionsmodelle haben sich bei Text-zu-Audio-(T2A-)Synthesetasks erfolgreich bewährt, leiden aber oft an gängigen Problemen wie semantischer Fehlanpassung und mangelhafter zeitlicher Konsistenz aufgrund begrenzter natürlichsprachlicher Verarbeitungsfähigkeiten und Datenknappheit. Zudem führen die in T2A-Arbeiten weit verbreiteten 2D-Raumstrukturen zu unzufriedenstellender Audioqualität bei der Generierung variabler Audiolängen, da sie zeitliche Informationen nicht ausreichend priorisieren. Um diesen Herausforderungen entgegenzukommen, schlagen wir Make-an-Audio 2 vor, eine latente diffusionsbasierte T2A-Methode, die auf dem Erfolg von Make-an-Audio aufbaut. Unser Ansatz umfasst mehrere Techniken zur Verbesserung der semantischen Anpassung und der zeitlichen Konsistenz: Erstens verwenden wir vortrainierte große Sprachmodelle (LLMs), um den Text in strukturierte <Ereignis & Reihenfolge>-Paare zu zerlegen, um die Erfassung zeitlicher Informationen zu verbessern. Zudem führen wir einen weiteren strukturierten-Text-Encoder ein, um das Lernen der semantischen Anpassung während des Diffusionsdenoise-Prozesses zu unterstützen. Um die Leistung bei der Generierung variabler Längen zu steigern und die Extraktion zeitlicher Informationen zu verbessern, gestalten wir einen feedforward Transformer-basierten Diffusionsdenoiser. Schließlich nutzen wir LLMs, um eine große Menge an Audio-Label-Daten in Audio-Text-Datensätze zu erweitern und zu transformieren, um das Problem der Knappheit temporärer Daten abzumildern. Ausführliche Experimente zeigen, dass unsere Methode sowohl in objektiven als auch in subjektiven Metriken Basismodellen überlegen ist und erhebliche Fortschritte in der Verarbeitung zeitlicher Informationen, semantischer Konsistenz und Tonqualität erzielt.