Command Palette
Search for a command to run...
Kontinuierliche Audio-Sprachmodelle
Kontinuierliche Audio-Sprachmodelle
Simon Rouard Manu Orsini Axel Roebel Neil Zeghidour Alexandre Défossez
Zusammenfassung
Audio Language Models (ALM) sind als dominierender Ansatz für die Sprach- und Musikgenerierung hervorgetreten, indem sie Audio als Folge diskreter Tokens darstellen. Im Gegensatz zu Text-Tokens, die invertierbar sind, werden Audio-Tokens jedoch aus verlustbehafteten Codecs mit begrenzter Bitrate extrahiert. Folglich erfordert eine Verbesserung der Audioqualität die Generierung einer größeren Anzahl von Tokens, was ein Kompromiss zwischen Fidelity und rechnerischem Aufwand darstellt. Um dieses Problem anzugehen, untersuchen wir Continuous Audio Language Models (CALM). Diese Modelle setzen einen großen Transformer-Backbone ein, der an jedem Zeitschritt eine kontextuelle Embedding-Darstellung erzeugt. Diese sequenzielle Information dient anschließend als Eingabe für ein MLP, das den nächsten kontinuierlichen Audio-Frame einer Audio-VAE über Konsistenzmodellierung generiert. Durch die Vermeidung verlustbehafteter Kompression erreicht CALM eine höhere Qualität bei geringerem rechnerischem Aufwand im Vergleich zu diskreten Modellen. Experimente an Sprache und Musik zeigen eine verbesserte Effizienz und Fidelity gegenüber aktuellen state-of-the-art diskreten Audio Language Models, was die Erzeugung leichtgewichtiger, hochwertiger Audioinhalte ermöglicht. Beispiel-Audio-Beispiele sind unter dieser URL verfügbar: this http URL. Abschließend veröffentlichen wir Pocket TTS, ein quelloffenes Text-to-Speech-Modell mit 100 M Parametern, das auf einem Laptop-CPU schneller als Echtzeit läuft: this http URL.