Online-Tutorial | Neueste Technologie Für Gerätebasierte TTS! NeuTTS-Air Erreicht 3-Sekunden-Audio-Cloning Basierend Auf Dem 0,5B-Modell

vor 2 Monaten

Herkömmliche, hochwertige TTS-Modelle (Text-to-Speech) stehen seit Langem vor mehreren zentralen Herausforderungen: Sie benötigen oft hohe Rechenressourcen und Cloud-Dienste, was zu hohen Kosten führt, die für kleine Unternehmen und Einzelentwickler schwer zu stemmen sind. Zudem benötigen die meisten dieser Modelle Dutzende von Minuten oder sogar Stunden an Audiomaterial für das Training. Diese Anforderungen an Bereitstellung und Betrieb erhöhen nicht nur die Einstiegshürde für die Nutzung dieser Modelle, sondern schränken auch den Einsatz von TTS in datenschutzsensiblen Bereichen ein.

NeuTTS-Air, das neueste Open-Source-End-to-End-Sprachsynthesemodell, bietet eine völlig neue Lösung für die Herausforderungen bei der Verwendung von TTS.Als weltweit erstes lokal laufendes TTS-Sprachmodell, das ultrarealistische Sprachsynthese und Echtzeit-Sprachklonierung unterstützt,NeuTTS-Air, basierend auf dem 0,5B Qwen LLM und dem NeuCodec-Audiocodec, demonstriert nicht nur hervorragende Few-Shot-Learning-Fähigkeiten beim Edge-Einsatz und der Echtzeit-Sprachklonierung, sondern kann auch auf neue Szenarien wie eingebettete Agenten und Stiltransfer generalisiert werden, unterstützt die 3-Sekunden-Audioklonierung und generiert natürliche Dialoginhalte.

Die experimentelle Auswertung zeigt, dassNeuTTS Air erzielt im Vergleich zu anderen Open-Source-Modellen eine herausragende Leistung (SOTA).Insbesondere bei Benchmarks für hyperrealistische Synthese und Echtzeit-Inferenz. Nach dem Training werden GGML/ONNX-Unterstützung und ein Wasserzeichenmechanismus eingeführt, wodurch das Modell im Open-Source-Bereich hinsichtlich Edge-TTS und Optimierung des Stromverbrauchs führend ist und in einigen Szenarien mit proprietären Modellen vergleichbar ist. Besonders hervorzuheben ist die geringe Größe des Modells.Die Inferenz kann auf der CPU durchgeführt werden.Geeignet für Geräte wie Mobiltelefone, Laptops und Raspberry Pi.

Link zum Tutorial für „Bereitstellung des NeuTTS-Air Voice Cloning Model auf der CPU“:

https://go.hyper.ai/IP2a2

Die Veröffentlichung von NeuTTS-Air erfolgt zu einem Zeitpunkt, an dem die Nachfrage der Branche nach effizienter, latenzarmer und hochrealistischer Sprachausgabe (TTS) stark steigt, insbesondere im Bereich der On-Device-Bereitstellung und des Echtzeit-Sprachklonens. Es senkt die Hürde für Entwickler, hochwertige TTS auf Mobil- und Edge-Geräten einzusetzen, und macht „surreale“ Stimmen nicht länger ausschließlich großen Cloud-Modellen vorbehalten.

„NeuTTS-Air: Ein leichtgewichtiges und effizientes Sprachklonmodell“ ist jetzt auf der HyperAI-Website (hyper.ai) im Bereich „Tutorials“ verfügbar.Erleben Sie die Bereitstellung mit nur einem Klick!

Link zum Tutorial:

https://go.hyper.ai/EJvsH

Demolauf

1. Nachdem Sie die Hyper.ai-Homepage aufgerufen haben, wählen Sie die Seite „Tutorials“ aus oder klicken Sie auf „Weitere Tutorials anzeigen“, wählen Sie „NeuTTS-Air: Leichtgewichtiges und effizientes Sprachklonmodell“ aus und klicken Sie auf „Dieses Tutorial online ausführen“.

2. Nachdem die Seite weitergeleitet wurde, klicken Sie oben rechts auf „Klonen“, um das Tutorial in Ihren eigenen Container zu klonen.

Hinweis: Sie können die Sprache oben rechts auf der Seite ändern. Derzeit sind Chinesisch und Englisch verfügbar. Dieses Tutorial zeigt die Schritte auf Englisch.

3. Wählen Sie die Images „NVIDIA GeForce RTX 5090“ und „PyTorch“ aus und wählen Sie je nach Bedarf „Pay As You Go“ oder „Tagesplan/Wochenplan/Monatsplan“. Klicken Sie anschließend auf „Auftragsausführung fortsetzen“.

4. Warten Sie, bis die Ressourcen zugewiesen sind. Der erste Klonvorgang dauert etwa 3 Minuten. Wenn der Status auf „Läuft“ wechselt, klicken Sie auf den Pfeil neben „API-Adresse“, um zur Demoseite zu gelangen. Bitte beachten Sie, dass Benutzer vor der Verwendung der API-Adresse eine Echtnamen-Authentifizierung durchführen müssen.

Effektdemonstration

Nachdem Sie die Demo-Seite aufgerufen haben, laden Sie die Referenzaudiodatei im Feld „Referenzaudio“ hoch, geben Sie den Referenztext im Feld „Referenztext“ ein, geben Sie den gewünschten Audiotext nach dem Klonen im Feld „Zu generierender Text“ ein, klicken Sie auf „Absenden“ und warten Sie einen Moment, bis die geklonte Audiodatei verfügbar ist.

Das Obige ist das diesmal von HyperAI empfohlene Tutorial. Jeder ist herzlich eingeladen, vorbeizukommen und es auszuprobieren!

Link zum Tutorial:

https://go.hyper.ai/EJvsH

Online-Tutorial | Neueste Technologie Für Gerätebasierte TTS! NeuTTS-Air Erreicht 3-Sekunden-Audio-Cloning Basierend Auf Dem 0,5B-Modell

vor 2 Monaten

Information

Link zum Tutorial für „Bereitstellung des NeuTTS-Air Voice Cloning Model auf der CPU“:

https://go.hyper.ai/IP2a2

Link zum Tutorial:

https://go.hyper.ai/EJvsH

Demolauf

2. Nachdem die Seite weitergeleitet wurde, klicken Sie oben rechts auf „Klonen“, um das Tutorial in Ihren eigenen Container zu klonen.

Hinweis: Sie können die Sprache oben rechts auf der Seite ändern. Derzeit sind Chinesisch und Englisch verfügbar. Dieses Tutorial zeigt die Schritte auf Englisch.

Effektdemonstration

Das Obige ist das diesmal von HyperAI empfohlene Tutorial. Jeder ist herzlich eingeladen, vorbeizukommen und es auszuprobieren!

Link zum Tutorial:

https://go.hyper.ai/EJvsH

Command Palette

Online-Tutorial | Neueste Technologie Für Gerätebasierte TTS! NeuTTS-Air Erreicht 3-Sekunden-Audio-Cloning Basierend Auf Dem 0,5B-Modell

Demolauf

Effektdemonstration

Command Palette

Online-Tutorial | Neueste Technologie Für Gerätebasierte TTS! NeuTTS-Air Erreicht 3-Sekunden-Audio-Cloning Basierend Auf Dem 0,5B-Modell

Demolauf

Effektdemonstration

Related News

Eine Neue Hochmoderne Plattform Zur Dokumentenanalyse! Die Neue Version Von MinerU Bietet Eine Innovative Zweistufige Analysestrategie Von „grob Bis Fein“; Der S2S-Domänen-Benchmark Wird Vorgestellt! Der Neueste Benchmark-Datensatz Von Tencent Bewertet Die Fähigkeiten Von Sprachmodellen.

Vom „Assistenten“ Zum „Benutzer“: Microsoft UserLM-8B Simuliert Echte Menschliche Gespräche Und Treibt so Eine Neue Welle Der LLM-Optimierung voran. Extract-0 Wurde Für Geringe Leistung Entwickelt Und Unterstützt Modelle Mit Kleinen Parametern Bei Der Präzisen Informationsextraktion.

Online-Tutorial | Microsoft Stellt VibeVoice Als Open Source Zur Verfügung Und Ermöglicht so 90 Minuten Natürliche Dialoge Zwischen 4 Rollen

Online-Tutorial | FLUX.2, Der Neue Stand Der Technik in Der Bildgenerierung, Ermöglicht Die Gleichzeitige Referenzierung Von 10 Bildern Für Eine Extrem Hohe Zeichen-/Stilkonsistenz.

Online-Tutorial | SAM 3 Erreicht Segmentierung Von Hinweisen Mit Doppelter Leistungssteigerung Und Verarbeitet 100 Erkennungsobjekte in 30 Millisekunden

Objekterkennung in Echtzeit Auf Dem Neuesten Stand Der Technik! YOLOv13 Erweitert Die Globalen Erkennungsfähigkeiten; UltraHR-100K Wurde Für Die NeurIPS 2025 Ausgewählt Und Ermöglicht Die Erfassung Von Texturbildern in Ultrahoher Auflösung.

Online-Tutorial | Deepseek-OCR Erreicht Modernste End-to-End-Modelle Mit Minimaler Anzahl Visueller Tokens

Ein Niedrigschwelliger Test Von Open-AutoGLM: Eine Intelligente Agentenerfahrung, Die Bildschirmverständnis Und Automatisierte Ausführung Kombiniert; Spatial-SSRL-81k: Aufbau Eines Selbstüberwachten Verbesserungspfads Für Räumliches Bewusstsein.

Meituans Open-Source-Videogenerierungsmodell LongCat-Video Kombiniert Textbasierte Videogenerierung, Bildbasierte Videogenerierung Und Videofortsetzungsfunktionen Und Konkurriert Damit Mit Erstklassigen Open-Source- Und Closed-Source-Modellen.

Command Palette

Online-Tutorial | Neueste Technologie Für Gerätebasierte TTS! NeuTTS-Air Erreicht 3-Sekunden-Audio-Cloning Basierend Auf Dem 0,5B-Modell

Demolauf

Effektdemonstration

Related News

Eine Neue Hochmoderne Plattform Zur Dokumentenanalyse! Die Neue Version Von MinerU Bietet Eine Innovative Zweistufige Analysestrategie Von „grob Bis Fein“; Der S2S-Domänen-Benchmark Wird Vorgestellt! Der Neueste Benchmark-Datensatz Von Tencent Bewertet Die Fähigkeiten Von Sprachmodellen.

Vom „Assistenten“ Zum „Benutzer“: Microsoft UserLM-8B Simuliert Echte Menschliche Gespräche Und Treibt so Eine Neue Welle Der LLM-Optimierung voran. Extract-0 Wurde Für Geringe Leistung Entwickelt Und Unterstützt Modelle Mit Kleinen Parametern Bei Der Präzisen Informationsextraktion.

Online-Tutorial | Microsoft Stellt VibeVoice Als Open Source Zur Verfügung Und Ermöglicht so 90 Minuten Natürliche Dialoge Zwischen 4 Rollen

Online-Tutorial | FLUX.2, Der Neue Stand Der Technik in Der Bildgenerierung, Ermöglicht Die Gleichzeitige Referenzierung Von 10 Bildern Für Eine Extrem Hohe Zeichen-/Stilkonsistenz.

Online-Tutorial | SAM 3 Erreicht Segmentierung Von Hinweisen Mit Doppelter Leistungssteigerung Und Verarbeitet 100 Erkennungsobjekte in 30 Millisekunden

Objekterkennung in Echtzeit Auf Dem Neuesten Stand Der Technik! YOLOv13 Erweitert Die Globalen Erkennungsfähigkeiten; UltraHR-100K Wurde Für Die NeurIPS 2025 Ausgewählt Und Ermöglicht Die Erfassung Von Texturbildern in Ultrahoher Auflösung.

Online-Tutorial | Deepseek-OCR Erreicht Modernste End-to-End-Modelle Mit Minimaler Anzahl Visueller Tokens

Ein Niedrigschwelliger Test Von Open-AutoGLM: Eine Intelligente Agentenerfahrung, Die Bildschirmverständnis Und Automatisierte Ausführung Kombiniert; Spatial-SSRL-81k: Aufbau Eines Selbstüberwachten Verbesserungspfads Für Räumliches Bewusstsein.

Meituans Open-Source-Videogenerierungsmodell LongCat-Video Kombiniert Textbasierte Videogenerierung, Bildbasierte Videogenerierung Und Videofortsetzungsfunktionen Und Konkurriert Damit Mit Erstklassigen Open-Source- Und Closed-Source-Modellen.

Related News

Eine Neue Hochmoderne Plattform Zur Dokumentenanalyse! Die Neue Version Von MinerU Bietet Eine Innovative Zweistufige Analysestrategie Von „grob Bis Fein“; Der S2S-Domänen-Benchmark Wird Vorgestellt! Der Neueste Benchmark-Datensatz Von Tencent Bewertet Die Fähigkeiten Von Sprachmodellen.

Vom „Assistenten“ Zum „Benutzer“: Microsoft UserLM-8B Simuliert Echte Menschliche Gespräche Und Treibt so Eine Neue Welle Der LLM-Optimierung voran. Extract-0 Wurde Für Geringe Leistung Entwickelt Und Unterstützt Modelle Mit Kleinen Parametern Bei Der Präzisen Informationsextraktion.

Online-Tutorial | Microsoft Stellt VibeVoice Als Open Source Zur Verfügung Und Ermöglicht so 90 Minuten Natürliche Dialoge Zwischen 4 Rollen

Online-Tutorial | FLUX.2, Der Neue Stand Der Technik in Der Bildgenerierung, Ermöglicht Die Gleichzeitige Referenzierung Von 10 Bildern Für Eine Extrem Hohe Zeichen-/Stilkonsistenz.

Online-Tutorial | SAM 3 Erreicht Segmentierung Von Hinweisen Mit Doppelter Leistungssteigerung Und Verarbeitet 100 Erkennungsobjekte in 30 Millisekunden

Objekterkennung in Echtzeit Auf Dem Neuesten Stand Der Technik! YOLOv13 Erweitert Die Globalen Erkennungsfähigkeiten; UltraHR-100K Wurde Für Die NeurIPS 2025 Ausgewählt Und Ermöglicht Die Erfassung Von Texturbildern in Ultrahoher Auflösung.

Online-Tutorial | Deepseek-OCR Erreicht Modernste End-to-End-Modelle Mit Minimaler Anzahl Visueller Tokens

Ein Niedrigschwelliger Test Von Open-AutoGLM: Eine Intelligente Agentenerfahrung, Die Bildschirmverständnis Und Automatisierte Ausführung Kombiniert; Spatial-SSRL-81k: Aufbau Eines Selbstüberwachten Verbesserungspfads Für Räumliches Bewusstsein.

Meituans Open-Source-Videogenerierungsmodell LongCat-Video Kombiniert Textbasierte Videogenerierung, Bildbasierte Videogenerierung Und Videofortsetzungsfunktionen Und Konkurriert Damit Mit Erstklassigen Open-Source- Und Closed-Source-Modellen.

Related News

Eine Neue Hochmoderne Plattform Zur Dokumentenanalyse! Die Neue Version Von MinerU Bietet Eine Innovative Zweistufige Analysestrategie Von „grob Bis Fein“; Der S2S-Domänen-Benchmark Wird Vorgestellt! Der Neueste Benchmark-Datensatz Von Tencent Bewertet Die Fähigkeiten Von Sprachmodellen.

Vom „Assistenten“ Zum „Benutzer“: Microsoft UserLM-8B Simuliert Echte Menschliche Gespräche Und Treibt so Eine Neue Welle Der LLM-Optimierung voran. Extract-0 Wurde Für Geringe Leistung Entwickelt Und Unterstützt Modelle Mit Kleinen Parametern Bei Der Präzisen Informationsextraktion.

Online-Tutorial | Microsoft Stellt VibeVoice Als Open Source Zur Verfügung Und Ermöglicht so 90 Minuten Natürliche Dialoge Zwischen 4 Rollen

Online-Tutorial | FLUX.2, Der Neue Stand Der Technik in Der Bildgenerierung, Ermöglicht Die Gleichzeitige Referenzierung Von 10 Bildern Für Eine Extrem Hohe Zeichen-/Stilkonsistenz.

Online-Tutorial | SAM 3 Erreicht Segmentierung Von Hinweisen Mit Doppelter Leistungssteigerung Und Verarbeitet 100 Erkennungsobjekte in 30 Millisekunden

Objekterkennung in Echtzeit Auf Dem Neuesten Stand Der Technik! YOLOv13 Erweitert Die Globalen Erkennungsfähigkeiten; UltraHR-100K Wurde Für Die NeurIPS 2025 Ausgewählt Und Ermöglicht Die Erfassung Von Texturbildern in Ultrahoher Auflösung.

Online-Tutorial | Deepseek-OCR Erreicht Modernste End-to-End-Modelle Mit Minimaler Anzahl Visueller Tokens

Ein Niedrigschwelliger Test Von Open-AutoGLM: Eine Intelligente Agentenerfahrung, Die Bildschirmverständnis Und Automatisierte Ausführung Kombiniert; Spatial-SSRL-81k: Aufbau Eines Selbstüberwachten Verbesserungspfads Für Räumliches Bewusstsein.

Meituans Open-Source-Videogenerierungsmodell LongCat-Video Kombiniert Textbasierte Videogenerierung, Bildbasierte Videogenerierung Und Videofortsetzungsfunktionen Und Konkurriert Damit Mit Erstklassigen Open-Source- Und Closed-Source-Modellen.