HyperAIHyperAI
vor 2 Monaten

Matcha-TTS: Eine schnelle TTS-Architektur mit bedingtem Flussabgleich

Shivam Mehta; Ruibo Tu; Jonas Beskow; Éva Székely; Gustav Eje Henter
Matcha-TTS: Eine schnelle TTS-Architektur mit bedingtem Flussabgleich
Abstract

Wir stellen Matcha-TTS vor, eine neue Encoder-Decoder-Architektur für schnelle Text-to-Speech (TTS)-Akustikmodellierung, die mit Hilfe der optimalen Transportbedingungen für den konditionellen Flussabgleich (OT-CFM) trainiert wurde. Dies führt zu einem ODE-basierten Decoder, der in weniger Syntheseschritten als Modelle, die mit Score-Matching trainiert wurden, eine hohe Ausgabequalität erzielt. Sorgfältige Designentscheidungen gewährleisten zudem, dass jeder Syntheseschritt schnell durchgeführt werden kann. Die Methode ist probabilistisch, nicht autoregressiv und lernt von Grund auf ohne externe Ausrichtungen zu sprechen. Im Vergleich zu starken pretrained Baseline-Modellen hat das Matcha-TTS-System den kleinsten Speicherbedarf, erreicht bei langen Aussagen die Geschwindigkeit der schnellsten Modelle und erzielt in einem Hörtest die höchste Durchschnittsbewertung. Bitte besuchen Sie https://shivammehta25.github.io/Matcha-TTS/ für Audibeispiele, Code und pretrained Modelle.

Matcha-TTS: Eine schnelle TTS-Architektur mit bedingtem Flussabgleich | Neueste Forschungsarbeiten | HyperAI