vor einem Monat

Zusammenfassung

Audio Language Models (ALM) sind als dominierender Ansatz für die Sprach- und Musikgenerierung hervorgetreten, indem sie Audio als Folge diskreter Tokens darstellen. Im Gegensatz zu Text-Tokens, die invertierbar sind, werden Audio-Tokens jedoch aus verlustbehafteten Codecs mit begrenzter Bitrate extrahiert. Folglich erfordert eine Verbesserung der Audioqualität die Generierung einer größeren Anzahl von Tokens, was ein Kompromiss zwischen Fidelity und rechnerischem Aufwand darstellt. Um dieses Problem anzugehen, untersuchen wir Continuous Audio Language Models (CALM). Diese Modelle setzen einen großen Transformer-Backbone ein, der an jedem Zeitschritt eine kontextuelle Embedding-Darstellung erzeugt. Diese sequenzielle Information dient anschließend als Eingabe für ein MLP, das den nächsten kontinuierlichen Audio-Frame einer Audio-VAE über Konsistenzmodellierung generiert. Durch die Vermeidung verlustbehafteter Kompression erreicht CALM eine höhere Qualität bei geringerem rechnerischem Aufwand im Vergleich zu diskreten Modellen. Experimente an Sprache und Musik zeigen eine verbesserte Effizienz und Fidelity gegenüber aktuellen state-of-the-art diskreten Audio Language Models, was die Erzeugung leichtgewichtiger, hochwertiger Audioinhalte ermöglicht. Beispiel-Audio-Beispiele sind unter dieser URL verfügbar: this http URL. Abschließend veröffentlichen wir Pocket TTS, ein quelloffenes Text-to-Speech-Modell mit 100 M Parametern, das auf einem Laptop-CPU schneller als Echtzeit läuft: this http URL.

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor einem Monat

Audio- Und Sprachverarbeitung

Text-to-Speech

Simon Rouard Manu Orsini Axel Roebel Neil Zeghidour Alexandre Défossez

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor einem Monat

Audio- Und Sprachverarbeitung

Text-to-Speech

Simon Rouard Manu Orsini Axel Roebel Neil Zeghidour Alexandre Défossez

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Kontinuierliche Audio-Sprachmodelle

Simon Rouard Manu Orsini Axel Roebel Neil Zeghidour Alexandre Défossez

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Kontinuierliche Audio-Sprachmodelle

Simon Rouard Manu Orsini Axel Roebel Neil Zeghidour Alexandre Défossez

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Kontinuierliche Audio-Sprachmodelle

Simon Rouard Manu Orsini Axel Roebel Neil Zeghidour Alexandre Défossez

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters