Command Palette
Search for a command to run...
Online-Tutorial | Neueste Technologie Für Gerätebasierte TTS! NeuTTS-Air Erreicht 3-Sekunden-Audio-Cloning Basierend Auf Dem 0,5B-Modell

Herkömmliche, hochwertige TTS-Modelle (Text-to-Speech) stehen seit Langem vor mehreren zentralen Herausforderungen: Sie benötigen oft hohe Rechenressourcen und Cloud-Dienste, was zu hohen Kosten führt, die für kleine Unternehmen und Einzelentwickler schwer zu stemmen sind. Zudem benötigen die meisten dieser Modelle Dutzende von Minuten oder sogar Stunden an Audiomaterial für das Training. Diese Anforderungen an Bereitstellung und Betrieb erhöhen nicht nur die Einstiegshürde für die Nutzung dieser Modelle, sondern schränken auch den Einsatz von TTS in datenschutzsensiblen Bereichen ein.
NeuTTS-Air, das neueste Open-Source-End-to-End-Sprachsynthesemodell, bietet eine völlig neue Lösung für die Herausforderungen bei der Verwendung von TTS.Als weltweit erstes lokal laufendes TTS-Sprachmodell, das ultrarealistische Sprachsynthese und Echtzeit-Sprachklonierung unterstützt,NeuTTS-Air, basierend auf dem 0,5B Qwen LLM und dem NeuCodec-Audiocodec, demonstriert nicht nur hervorragende Few-Shot-Learning-Fähigkeiten beim Edge-Einsatz und der Echtzeit-Sprachklonierung, sondern kann auch auf neue Szenarien wie eingebettete Agenten und Stiltransfer generalisiert werden, unterstützt die 3-Sekunden-Audioklonierung und generiert natürliche Dialoginhalte.
Die experimentelle Auswertung zeigt, dassNeuTTS Air erzielt im Vergleich zu anderen Open-Source-Modellen eine herausragende Leistung (SOTA).Insbesondere bei Benchmarks für hyperrealistische Synthese und Echtzeit-Inferenz. Nach dem Training werden GGML/ONNX-Unterstützung und ein Wasserzeichenmechanismus eingeführt, wodurch das Modell im Open-Source-Bereich hinsichtlich Edge-TTS und Optimierung des Stromverbrauchs führend ist und in einigen Szenarien mit proprietären Modellen vergleichbar ist. Besonders hervorzuheben ist die geringe Größe des Modells.Die Inferenz kann auf der CPU durchgeführt werden.Geeignet für Geräte wie Mobiltelefone, Laptops und Raspberry Pi.
Link zum Tutorial für „Bereitstellung des NeuTTS-Air Voice Cloning Model auf der CPU“:
Die Veröffentlichung von NeuTTS-Air erfolgt zu einem Zeitpunkt, an dem die Nachfrage der Branche nach effizienter, latenzarmer und hochrealistischer Sprachausgabe (TTS) stark steigt, insbesondere im Bereich der On-Device-Bereitstellung und des Echtzeit-Sprachklonens. Es senkt die Hürde für Entwickler, hochwertige TTS auf Mobil- und Edge-Geräten einzusetzen, und macht „surreale“ Stimmen nicht länger ausschließlich großen Cloud-Modellen vorbehalten.
„NeuTTS-Air: Ein leichtgewichtiges und effizientes Sprachklonmodell“ ist jetzt auf der HyperAI-Website (hyper.ai) im Bereich „Tutorials“ verfügbar.Erleben Sie die Bereitstellung mit nur einem Klick!
Link zum Tutorial:
Demolauf
1. Nachdem Sie die Hyper.ai-Homepage aufgerufen haben, wählen Sie die Seite „Tutorials“ aus oder klicken Sie auf „Weitere Tutorials anzeigen“, wählen Sie „NeuTTS-Air: Leichtgewichtiges und effizientes Sprachklonmodell“ aus und klicken Sie auf „Dieses Tutorial online ausführen“.


2. Nachdem die Seite weitergeleitet wurde, klicken Sie oben rechts auf „Klonen“, um das Tutorial in Ihren eigenen Container zu klonen.
Hinweis: Sie können die Sprache oben rechts auf der Seite ändern. Derzeit sind Chinesisch und Englisch verfügbar. Dieses Tutorial zeigt die Schritte auf Englisch.

3. Wählen Sie die Images „NVIDIA GeForce RTX 5090“ und „PyTorch“ aus und wählen Sie je nach Bedarf „Pay As You Go“ oder „Tagesplan/Wochenplan/Monatsplan“. Klicken Sie anschließend auf „Auftragsausführung fortsetzen“.


4. Warten Sie, bis die Ressourcen zugewiesen sind. Der erste Klonvorgang dauert etwa 3 Minuten. Wenn der Status auf „Läuft“ wechselt, klicken Sie auf den Pfeil neben „API-Adresse“, um zur Demoseite zu gelangen. Bitte beachten Sie, dass Benutzer vor der Verwendung der API-Adresse eine Echtnamen-Authentifizierung durchführen müssen.

Effektdemonstration
Nachdem Sie die Demo-Seite aufgerufen haben, laden Sie die Referenzaudiodatei im Feld „Referenzaudio“ hoch, geben Sie den Referenztext im Feld „Referenztext“ ein, geben Sie den gewünschten Audiotext nach dem Klonen im Feld „Zu generierender Text“ ein, klicken Sie auf „Absenden“ und warten Sie einen Moment, bis die geklonte Audiodatei verfügbar ist.

Das Obige ist das diesmal von HyperAI empfohlene Tutorial. Jeder ist herzlich eingeladen, vorbeizukommen und es auszuprobieren!
Link zum Tutorial: