HyperAIHyperAI

Command Palette

Search for a command to run...

Matcha-TTS: Eine schnelle TTS-Architektur mit bedingtem Flussabgleich

Shivam Mehta; Ruibo Tu; Jonas Beskow; Éva Székely; Gustav Eje Henter

Zusammenfassung

Wir stellen Matcha-TTS vor, eine neue Encoder-Decoder-Architektur für schnelle Text-to-Speech (TTS)-Akustikmodellierung, die mit Hilfe der optimalen Transportbedingungen für den konditionellen Flussabgleich (OT-CFM) trainiert wurde. Dies führt zu einem ODE-basierten Decoder, der in weniger Syntheseschritten als Modelle, die mit Score-Matching trainiert wurden, eine hohe Ausgabequalität erzielt. Sorgfältige Designentscheidungen gewährleisten zudem, dass jeder Syntheseschritt schnell durchgeführt werden kann. Die Methode ist probabilistisch, nicht autoregressiv und lernt von Grund auf ohne externe Ausrichtungen zu sprechen. Im Vergleich zu starken pretrained Baseline-Modellen hat das Matcha-TTS-System den kleinsten Speicherbedarf, erreicht bei langen Aussagen die Geschwindigkeit der schnellsten Modelle und erzielt in einem Hörtest die höchste Durchschnittsbewertung. Bitte besuchen Sie https://shivammehta25.github.io/Matcha-TTS/ für Audibeispiele, Code und pretrained Modelle.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp