vor 8 Monaten

Dongchao Yang extsuperscript1* Jinchuan Tian extsuperscript2* Xu Tan extsuperscript3† Rongjie Huang extsuperscript4 Songxiang Liu Xunkai Chang extsuperscript2 Jiatong Shi extsuperscript2 Sheng Zhao extsuperscript3 Jiang Bian extsuperscript3 Zhou Zhao extsuperscript4

Zusammenfassung

Große Sprachmodelle (LLM) haben die Fähigkeit gezeigt, eine Vielzahl von generativen Aufgaben zu bewältigen. In dieser Arbeit wird das UniAudio-System vorgestellt, das im Gegensatz zu früheren aufgabenspezifischen Ansätzen, LLM-Techniken nutzt, um verschiedene Arten von Audio (einschließlich Sprache, Geräuschen, Musik und Gesang) unter gegebenen Eingabebedingungen zu generieren. Das UniAudio-System verfolgt folgende Schritte: 1) Es tokenisiert alle Arten von Ziel-Audio zusammen mit anderen konditionierenden Modalitäten, 2) es verbindet Quell-Ziel-Paare zu einer einzelnen Sequenz und 3) es führt Vorhersagen des nächsten Tokens mithilfe von LLM durch. Zudem wird ein mehrskaliger Transformer-Modell vorgeschlagen, um die übermäßig langen Sequenzen zu bewältigen, die durch die tokenisierung basierend auf einem restvektorquantisierungsbasierten neuronalen Codec entstehen. Die Trainingsphase von UniAudio wurde auf 165.000 Stunden Audio und 1 Milliarde Parameter skaliert, basierend auf allen generativen Aufgaben. Das Ziel ist es, ausreichendes vorheriges Wissen sowohl in den intrinsischen Eigenschaften des Audios als auch in der Interaktion zwischen Audio und anderen Modalitäten zu erlangen. Daher hat das trainierte UniAudio-Modell das Potenzial, ein Fundamentmodell für universelle Audio-Generierung zu werden: Es zeigt starke Fähigkeiten in allen trainierten Aufgaben und kann nach einfacher Feinabstimmung nahtlos neue Audio-Generierungsaufgaben unterstützen. Experimente zeigen, dass UniAudio den aktuellen Stand der Technik oder zumindest wettbewerbsfähige Ergebnisse bei den meisten der 11 Aufgaben erreicht. Eine Demonstration sowie der Code sind unter https://github.com/yangdongchao/UniAudio veröffentlicht worden.

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 8 Monaten

Dongchao Yang extsuperscript1* Jinchuan Tian extsuperscript2* Xu Tan extsuperscript3† Rongjie Huang extsuperscript4 Songxiang Liu Xunkai Chang extsuperscript2 Jiatong Shi extsuperscript2 Sheng Zhao extsuperscript3 Jiang Bian extsuperscript3 Zhou Zhao extsuperscript4

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 8 Monaten

Dongchao Yang extsuperscript1* Jinchuan Tian extsuperscript2* Xu Tan extsuperscript3† Rongjie Huang extsuperscript4 Songxiang Liu Xunkai Chang extsuperscript2 Jiatong Shi extsuperscript2 Sheng Zhao extsuperscript3 Jiang Bian extsuperscript3 Zhou Zhao extsuperscript4

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

UniAudio: Ein Audio-Grundmodell für die universelle Audioerzeugung

Dongchao Yang extsuperscript1* Jinchuan Tian extsuperscript2* Xu Tan extsuperscript3† Rongjie Huang extsuperscript4 Songxiang Liu Xunkai Chang extsuperscript2 Jiatong Shi extsuperscript2 Sheng Zhao extsuperscript3 Jiang Bian extsuperscript3 Zhou Zhao extsuperscript42 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

UniAudio: Ein Audio-Grundmodell für die universelle Audioerzeugung

Dongchao Yang extsuperscript1* Jinchuan Tian extsuperscript2* Xu Tan extsuperscript3† Rongjie Huang extsuperscript4 Songxiang Liu Xunkai Chang extsuperscript2 Jiatong Shi extsuperscript2 Sheng Zhao extsuperscript3 Jiang Bian extsuperscript3 Zhou Zhao extsuperscript42 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

UniAudio: Ein Audio-Grundmodell für die universelle Audioerzeugung

Dongchao Yang extsuperscript1* Jinchuan Tian extsuperscript2* Xu Tan extsuperscript3† Rongjie Huang extsuperscript4 Songxiang Liu Xunkai Chang extsuperscript2 Jiatong Shi extsuperscript2 Sheng Zhao extsuperscript3 Jiang Bian extsuperscript3 Zhou Zhao extsuperscript42 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Dongchao Yang extsuperscript1* Jinchuan Tian extsuperscript2* Xu Tan extsuperscript3† Rongjie Huang extsuperscript4 Songxiang Liu Xunkai Chang extsuperscript2 Jiatong Shi extsuperscript2 Sheng Zhao extsuperscript3 Jiang Bian extsuperscript3 Zhou Zhao extsuperscript4

Dongchao Yang extsuperscript1* Jinchuan Tian extsuperscript2* Xu Tan extsuperscript3† Rongjie Huang extsuperscript4 Songxiang Liu Xunkai Chang extsuperscript2 Jiatong Shi extsuperscript2 Sheng Zhao extsuperscript3 Jiang Bian extsuperscript3 Zhou Zhao extsuperscript4

Dongchao Yang extsuperscript1* Jinchuan Tian extsuperscript2* Xu Tan extsuperscript3† Rongjie Huang extsuperscript4 Songxiang Liu Xunkai Chang extsuperscript2 Jiatong Shi extsuperscript2 Sheng Zhao extsuperscript3 Jiang Bian extsuperscript3 Zhou Zhao extsuperscript4