HyperAIHyperAI
vor 2 Monaten

UniAudio: Ein Audio-Grundmodell für die universelle Audioerzeugung

Yang, Dongchao ; Tian, Jinchuan ; Tan, Xu ; Huang, Rongjie ; Liu, Songxiang ; Chang, Xuankai ; Shi, Jiatong ; Zhao, Sheng ; Bian, Jiang ; Zhao, Zhou ; Wu, Xixin ; Meng, Helen
UniAudio: Ein Audio-Grundmodell für die universelle Audioerzeugung
Abstract

Große Sprachmodelle (LLM) haben die Fähigkeit gezeigt, eine Vielzahl von generativen Aufgaben zu bewältigen. In dieser Arbeit wird das UniAudio-System vorgestellt, das im Gegensatz zu früheren aufgabenspezifischen Ansätzen, LLM-Techniken nutzt, um verschiedene Arten von Audio (einschließlich Sprache, Geräuschen, Musik und Gesang) unter gegebenen Eingabebedingungen zu generieren. Das UniAudio-System verfolgt folgende Schritte: 1) Es tokenisiert alle Arten von Ziel-Audio zusammen mit anderen konditionierenden Modalitäten, 2) es verbindet Quell-Ziel-Paare zu einer einzelnen Sequenz und 3) es führt Vorhersagen des nächsten Tokens mithilfe von LLM durch. Zudem wird ein mehrskaliger Transformer-Modell vorgeschlagen, um die übermäßig langen Sequenzen zu bewältigen, die durch die tokenisierung basierend auf einem restvektorquantisierungsbasierten neuronalen Codec entstehen. Die Trainingsphase von UniAudio wurde auf 165.000 Stunden Audio und 1 Milliarde Parameter skaliert, basierend auf allen generativen Aufgaben. Das Ziel ist es, ausreichendes vorheriges Wissen sowohl in den intrinsischen Eigenschaften des Audios als auch in der Interaktion zwischen Audio und anderen Modalitäten zu erlangen. Daher hat das trainierte UniAudio-Modell das Potenzial, ein Fundamentmodell für universelle Audio-Generierung zu werden: Es zeigt starke Fähigkeiten in allen trainierten Aufgaben und kann nach einfacher Feinabstimmung nahtlos neue Audio-Generierungsaufgaben unterstützen. Experimente zeigen, dass UniAudio den aktuellen Stand der Technik oder zumindest wettbewerbsfähige Ergebnisse bei den meisten der 11 Aufgaben erreicht. Eine Demonstration sowie der Code sind unter https://github.com/yangdongchao/UniAudio veröffentlicht worden.

UniAudio: Ein Audio-Grundmodell für die universelle Audioerzeugung | Neueste Forschungsarbeiten | HyperAI