HyperAIHyperAI

Command Palette

Search for a command to run...

UniAudio: Ein Audio-Grundmodell für die universelle Audioerzeugung

Zusammenfassung

Große Sprachmodelle (LLM) haben die Fähigkeit gezeigt, eine Vielzahl von generativen Aufgaben zu bewältigen. In dieser Arbeit wird das UniAudio-System vorgestellt, das im Gegensatz zu früheren aufgabenspezifischen Ansätzen, LLM-Techniken nutzt, um verschiedene Arten von Audio (einschließlich Sprache, Geräuschen, Musik und Gesang) unter gegebenen Eingabebedingungen zu generieren. Das UniAudio-System verfolgt folgende Schritte: 1) Es tokenisiert alle Arten von Ziel-Audio zusammen mit anderen konditionierenden Modalitäten, 2) es verbindet Quell-Ziel-Paare zu einer einzelnen Sequenz und 3) es führt Vorhersagen des nächsten Tokens mithilfe von LLM durch. Zudem wird ein mehrskaliger Transformer-Modell vorgeschlagen, um die übermäßig langen Sequenzen zu bewältigen, die durch die tokenisierung basierend auf einem restvektorquantisierungsbasierten neuronalen Codec entstehen. Die Trainingsphase von UniAudio wurde auf 165.000 Stunden Audio und 1 Milliarde Parameter skaliert, basierend auf allen generativen Aufgaben. Das Ziel ist es, ausreichendes vorheriges Wissen sowohl in den intrinsischen Eigenschaften des Audios als auch in der Interaktion zwischen Audio und anderen Modalitäten zu erlangen. Daher hat das trainierte UniAudio-Modell das Potenzial, ein Fundamentmodell für universelle Audio-Generierung zu werden: Es zeigt starke Fähigkeiten in allen trainierten Aufgaben und kann nach einfacher Feinabstimmung nahtlos neue Audio-Generierungsaufgaben unterstützen. Experimente zeigen, dass UniAudio den aktuellen Stand der Technik oder zumindest wettbewerbsfähige Ergebnisse bei den meisten der 11 Aufgaben erreicht. Eine Demonstration sowie der Code sind unter https://github.com/yangdongchao/UniAudio veröffentlicht worden.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
UniAudio: Ein Audio-Grundmodell für die universelle Audioerzeugung | Paper | HyperAI