HyperAIHyperAI

Command Palette

Search for a command to run...

Kontinuierliche Audio-Sprachmodelle

Simon Rouard Manu Orsini Axel Roebel Neil Zeghidour Alexandre Défossez

Zusammenfassung

Audio Language Models (ALM) sind als dominierender Ansatz für die Sprach- und Musikgenerierung hervorgetreten, indem sie Audio als Folge diskreter Tokens darstellen. Im Gegensatz zu Text-Tokens, die invertierbar sind, werden Audio-Tokens jedoch aus verlustbehafteten Codecs mit begrenzter Bitrate extrahiert. Folglich erfordert eine Verbesserung der Audioqualität die Generierung einer größeren Anzahl von Tokens, was ein Kompromiss zwischen Fidelity und rechnerischem Aufwand darstellt. Um dieses Problem anzugehen, untersuchen wir Continuous Audio Language Models (CALM). Diese Modelle setzen einen großen Transformer-Backbone ein, der an jedem Zeitschritt eine kontextuelle Embedding-Darstellung erzeugt. Diese sequenzielle Information dient anschließend als Eingabe für ein MLP, das den nächsten kontinuierlichen Audio-Frame einer Audio-VAE über Konsistenzmodellierung generiert. Durch die Vermeidung verlustbehafteter Kompression erreicht CALM eine höhere Qualität bei geringerem rechnerischem Aufwand im Vergleich zu diskreten Modellen. Experimente an Sprache und Musik zeigen eine verbesserte Effizienz und Fidelity gegenüber aktuellen state-of-the-art diskreten Audio Language Models, was die Erzeugung leichtgewichtiger, hochwertiger Audioinhalte ermöglicht. Beispiel-Audio-Beispiele sind unter dieser URL verfügbar: this http URL. Abschließend veröffentlichen wir Pocket TTS, ein quelloffenes Text-to-Speech-Modell mit 100 M Parametern, das auf einem Laptop-CPU schneller als Echtzeit läuft: this http URL.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp