HyperAIHyperAI
vor 2 Monaten

AudioLDM 2: Lernen der ganzheitlichen Audioerzeugung durch selbstüberwachtes Vortraining

Liu, Haohe ; Yuan, Yi ; Liu, Xubo ; Mei, Xinhao ; Kong, Qiuqiang ; Tian, Qiao ; Wang, Yuping ; Wang, Wenwu ; Wang, Yuxuan ; Plumbley, Mark D.
AudioLDM 2: Lernen der ganzheitlichen Audioerzeugung durch selbstüberwachtes Vortraining
Abstract

Obwohl die Audioerzeugung Gemeinsamkeiten bei verschiedenen Arten von Audio, wie Sprache, Musik und Soundeffekten, aufweist, erfordert das Design von Modellen für jeden Typ eine sorgfältige Berücksichtigung spezifischer Ziele und Verzerrungen, die sich erheblich von denen anderer Arten unterscheiden können. Um uns einem einheitlichen Ansatz der Audioerzeugung näher zu bringen, schlägt dieser Artikel einen Rahmen vor, der dieselbe Lernmethode für die Erzeugung von Sprache, Musik und Soundeffekten nutzt. Unser Rahmen führt eine allgemeine Darstellung des Audios ein, genannt "Audio-Sprache" (LOA). Jedes Audio kann unter Verwendung von AudioMAE, einem selbstüberwachten prätrainierten Repräsentationslernmodell, in LOA übersetzt werden. Im Generierungsprozess übersetzen wir jede Modalität in LOA durch Anwendung eines GPT-2-Modells und führen ein selbstüberwachtes Lernen zur Audioerzeugung mit einem latente-Diffusionsmodell durch, das anhand der LOA konditioniert ist. Der vorgeschlagene Rahmen bietet natürliche Vorteile wie Kontextlernfähigkeiten und wiederverwendbare selbstüberwachte prätrainierte AudioMAE- und latente-Diffusionsmodelle. Experimente auf den wichtigsten Benchmarks für Text-zu-Audio-, Text-zu-Musik- und Text-zu-Spracherzeugung zeigen Stand-des-Wissens-gleiche oder wettbewerbsfähige Leistungen im Vergleich zu früheren Ansätzen. Unser Code, unser prätrainiertes Modell und unsere Demoversion sind unter https://audioldm.github.io/audioldm2 verfügbar.

AudioLDM 2: Lernen der ganzheitlichen Audioerzeugung durch selbstüberwachtes Vortraining | Neueste Forschungsarbeiten | HyperAI