NVIDIA Riva TTS verbessert multilinguale Sprachsynthese und Voice Cloning
Die Technologie von NVIDIA Riva TTS revolutioniert die Erstellung menschenähnlicher Sprache und die Stimmenklonung auf mehreren Sprachen. Während SprachkI traditionell zur Entwicklung digitaler Assistenten und Sprachagenten genutzt wird, hat sie weitreichende Auswirkungen auf verschiedene Branchen. Text-to-Speech (TTS) und automatische Spracherkennung (ASR) sind zentrale Technologien, die Echtzeitübersetzungen, interaktive digitale Menschen und sogar die Wiederherstellung verlorener Stimmen ermöglichen. Diese Fortschritte verändern grundlegend, wie Menschen kommunizieren, lernen und miteinander vernetzt sind. NVIDIA Riva ist ein Satz von multilingualen Mikroservices, die für die Erstellung von Echtzeitsprach-AI-Pipelines entwickelt wurden. Sie bietet erstklassige Genauigkeit in den Bereichen TTS, ASR und neuronale Maschinensprachübersetzung (NMT) und kann sowohl in lokalen Systemen, Clouds, am Netzrand und in eingebetteten Geräten genutzt werden. TTS, auch als Sprachsynthese bekannt, konvertiert Text in hochwertige, natürliche Sprache. Dies ist seit Jahrzehnten eine Herausforderung im Bereich der SprachkI gewesen. NVIDIA präsentiert nun drei neue, standesgemäße Riva TTS-Modelle, die erheblich zu dieser Aufgabe beitragen. Magpie TTS Multilingual Das Modell basiert auf einem strömenden Encoder-Decoder-Transformer-Design und ist speziell für multilinguale Streaming-Anwendungen geeignet. Es kann unter anderem in Voice AI-Agenten, digitalen Menschen, multilingualen interaktiven Sprachantworten (IVR) und Hörbüchern eingesetzt werden. Das Modell unterstützt Englisch, Spanisch, Französisch und Deutsch und erreicht eine Latenz von weniger als 200 ms mit NVIDIA Dynamo-Triton. Es wurde durch einen neuen Präferenzausrichtungsrahmen und classifier-free guidance (CFG) optimiert, um Probleme bei der Textanpassung und bei wiederholten Token zu minimieren. Magpie TTS Zeroshot Ähnlich wie das Multilingual-Modell nutzt auch Magpie TTS Zeroshot eine strömende Encoder-Decoder-Transformer-Architektur. Es ist besonders für Live-Telefonie und die Erstellung von Nichtspielercharakteren (NPCs) in Spielen geeignet. Das Modell unterstützt Englisch und erreicht ebenfalls eine Latenz von weniger als 200 ms. Es kann mit einer fünfsekündigen Stimmenprobe die Stimme eines Zielsprechers synthetisieren. Dies wird durch die Integration des Präferenzausrichtungsrahmens und CFG ermöglicht, die das Modell dazu bringen, die Tonfolge des Zielsprechers akkurat nachzubilden. Magpie TTS Flow Magpie TTS Flow verwendet eine offline-Fluss-abgleichende Dekodierarchitektur, die auf einem alignment-aware Pretraining-Framework basiert. Es integriert diskrete Spracheinheiten (HuBERT) in ein nicht-autoregressives Training-Framework (E2 TTS), um Text-Sprachabgleich und akustische Merkmale zu erlernen. Dies führt zu einem natürlichen Prosodieoutput. Ein wesentlicher Vorteil besteht darin, dass es auch mit großen, untranskribierten Datensätzen trainiert werden kann, was die Notwendigkeit für separate Abgleichmechanismen beseitigt. Dies ermöglicht eine schnelle Konvergenz während des Feintuning-Prozesses, selbst bei begrenzten transkribierten Daten. Bevor das Pretraining beginnt, wird die Wellenform des Audios in diskrete Einheiten durch HuBERT konvertiert. Während des Pretrainings werden diese diskreten Einheiten mit maskierter Sprache verbunden, um den Text-Sprachabgleich zu erlernen. Im Feintuning-Stage werden Textsequenzen aus transkribierten Daten und maskierte Zielreferenzsprache als Eingabe verwendet, um das Audio des Zielsprechers zu generieren. Das Modell erreicht ausgezeichnete Aussprachegenauigkeit (geringe WER) und hohe Sprecherähnlichkeit (SECS-O) mit deutlich weniger Pretraining- und Feintuning-Iterationen. Es unterstützt ebenfalls mehrere Sprachen durch die Integration von Sprach-ID als Eingabe für den Decoder. Das veröffentlichte Riva-Modell wurde auf einem signifikant größeren gepaarten Datensatz (ca. 70.000 Stunden) trainiert, um die zero-shot-Leistung weiter zu verbessern. Sicherheitszusammenarbeit Im Rahmen der NVIDIA Trustworthy AI-Initiative ist die sichere und verantwortliche Weiterentwicklung von SprachkI priorisiert. Um die Risiken synthetischer Sprache zu adressieren, arbeitet NVIDIA mit führenden Unternehmen für Deepfake- und Stimmenerkennung zusammen, wie etwa Pindrop. Pindrop-Technologie wird in verschiedenen Branchen eingesetzt, von Banken und Finanzdienstleistungen bis hin zu großen Kontaktzentren, Einzelhandel, Energieversorgung und Versicherungen. Sie bietet Echtzeit-Stimmauthentifizierung und Deepfake-Erkennung, um Betrug und Identitätsdiebstahl in wichtigen Interaktionen zu verhindern. Diese Zusammenarbeit setzt wichtige Standards für die sichere Bereitstellung synthetischer Sprache und adressiert kritische Risiken, insbesondere in Kontaktzentren und Medienintegrität. Erste Schritte mit NVIDIA Riva Magpie TTS-Modellen NVIDIA Riva Magpie TTS-Modelle setzen neue Standards für Echtzeit-, natürliche und sprecherangepasste Sprachsynthese. Dank ihrer flexiblen Architektur und hoher Leistung, die durch geringe Wortfehlerquoten in mehreren Sprachen gezeigt wird, bieten sie ideale Modelle für Healthcare, Barrierefreiheit und jede Anwendung, die lebensgetreue, Echtzeit-Sprachinteraktionen erfordert. Entwickler können mit diesen Modellen beginnen, um hochwertige, natürliche und personalisierte Sprachsynthese in ihre Projekte zu integrieren. Industrieinsider bewerten die Einführung der NVIDIA Riva Magpie TTS-Modelle sehr positiv. Sie sehen darin einen wichtigen Meilenstein auf dem Weg zur Verfeinerung von Sprachtechnologien und deren breiteren Einsatz in verschiedenen Anwendungen. Die Fähigkeit, mit weniger Daten hohe Genauigkeiten zu erzielen, wird besonders hervorgehoben. NVIDIA, als führender Anbieter von KI-Lösungen, zeigt hiermit einmal mehr seine Position als Innovator in der Branche.