Online-Tutorial | Reale Bewertung Von 3 Stimmklonmodellen, GPT-SoVITS Erfasst Die Eigenschaften Von „Shiji Niangniang“ Genau

Die Einspielergebnisse des Frühlingsfestfilms „Nezha 2“ sind rasant gestiegen und haben mittlerweile die 12-Milliarden-Marke überschritten. Damit ist er der erste chinesische Film, der die 10-Milliarden-Marke an den Kinokassen erreicht hat und erfolgreich in die Top 10 der weltweiten Kinokassenliste eingestiegen ist. Im Film verliehen die Synchronsprecher den Figuren mit ihren lebendigen Stimmen eine lebendige Vitalität. Von Nezhas rauchiger Stimme über Taiyi Zhenrens Sichuan-Dialekt bis hin zu Shiji Niangniangs Lebhaftigkeit löste es breite Diskussionen in der Öffentlichkeit aus und rückte die Kunst der Synchronisation hinter den Kulissen in den Vordergrund.
Wenn es um den Charme der Synchronisationskunst geht, ist die Bai Jingjing-Haut von Mi Yue in „Honor of Kings“ ein perfektes Beispiel. Die offizielle Website lud Wang Huijun, den ursprünglichen Synchronsprecher von Bai Jingjing im Film „Eine chinesische Odyssee“, speziell ein, ihr erneut ihre Stimme zu leihen. „Sie und ich müssen glauben, dass Loslassen auch eine Art Wille Gottes ist.“ Als die bekannten Zeilen erklangen, wurde bei vielen Menschen sofort der jugendliche Unmut wachgerufen und die Spieler „spendeten großzügig“ für diese Stimmung.
Heutzutage entwickelt sich die Technologie zum Klonen von Stimmen rasant. Mithilfe fortschrittlicher Modelle zum Klonen von Stimmen können auch normale Menschen Zeit und Raum überwinden, die einzigartige Stimme ihrer Lieblingsfiguren mit einem Klick replizieren und ihre „Synchronisationssucht“ problemlos befriedigen! derzeit,Drei gängige Open-Source-Modelle stechen hervor: GPT-SoVITS, Fish Speech v1.4 und F5-E2 TTS.Mit ihren jeweils einzigartigen Vorteilen spielen sie in unterschiedlichen Anwendungsszenarien eine Schlüsselrolle. Ob es um die Erstellung von Filmen und Fernsehsendungen, die Produktion von Audioinhalten oder die tägliche Synchronisation von Unterhaltungsinhalten geht, man findet sie.
Der Abschnitt „Tutorial“ der offiziellen Website von HyperAI ist jetzt online:
* Online-Demo zur GPT-SoVITS-Audiosynthese:
https://hyper.ai/cn/tutorials/29812
* Demo des Sprachklonierungstools „Fish Speech“ v1.4:
https://hyper.ai/cn/tutorials/34680
* F5-E2 TTS klont jeden Ton in nur 3 Sekunden:
https://hyper.ai/cn/tutorials/35468
Heute werde ich Ihnen eine detaillierte Einführung in diese drei Open-Source-Modelle zum Klonen von Sounds geben und Ihnen dabei helfen, die tatsächlichen Nutzungseffekte anhand desselben Original-Audios und derselben Eingabeaufforderung zu bewerten!
GPT-SoVITS-Audiosynthese
* Veröffentlichungszeit:2022
* Ausstellende Behörde:B-Station bis Meister Huaer Buku
* Bereitstellung mit einem Klick:
https://hyper.ai/cn/tutorials/29812
Dieses Modell verwendet die Sprachcodierungstechnologie SoVITS+Transformer und sorgte in der KI-Sprachsynthese-Szene gleich nach seiner Markteinführung für Aufsehen. Sein Hi-Fi-Sprachsyntheseeffekt ist beispiellos. Sogar mit nur 5 Sekunden Tonbeispielen kann eine Text-to-Speech-Konvertierung (TTS) ohne Samples erreicht werden.
Nehmen wir die Stimme von Shiji Niangniang im Film Nezha als Beispiel und verwenden GPT-SoVITS. Wir müssen lediglich eine Audioprobe der klassischen Zeilen von Shiji Niangniang im Film als Beispiel sammeln, um ihre schöne, lebendige und kraftvolle Stimme genau wiederzugeben.
Fish Speech v1.4 Stimmenklonen
* Veröffentlichungszeit:2024
* Ausstellende Behörde:Fish Audio Team
* Bereitstellung mit einem Klick:
https://hyper.ai/cn/tutorials/34680
Das Modell wurde mit etwa 150.000 Stunden Daten trainiert und spricht fließend Chinesisch, Japanisch und Englisch. Seine Fähigkeiten zur Sprachverarbeitung kommen dem menschlichen Niveau nahe und sein Stimmausdruck ist reichhaltig und vielfältig. Benutzer können Klangfarbe, Tonhöhe und Sprechgeschwindigkeit frei anpassen, um ganz einfach ihre eigene, einzigartige Stimme zu erstellen und so den individuellen Anforderungen aller an Charakterstimmen in verschiedenen kreativen Szenarien gerecht zu werden.
F5-E2 TTS klont jeden Ton in nur 3 Sekunden
* Veröffentlichungszeit:2024
* Ausstellende Behörde:Shanghai Jiao Tong University, University of Cambridge und Geely Automobile Research Institute (Ningbo) Co., Ltd.
* Bereitstellung mit einem Klick:
https://hyper.ai/cn/tutorials/35468
F5 TTS basiert auf einer nicht-autoregressiven Generierungsmethode auf Basis von Stream Matching, kombiniert mit der Diffusion Transformer (DiT)-Technologie, die durch Zero-Shot-Learning ohne zusätzliche Überwachung schnell eine natürliche, flüssige und originalgetreue Sprache erzeugen kann. Der Kern von E2 TTS liegt in seiner vollständig nicht-autoregressiven Eigenschaft. Es kann die gesamte Sprachsequenz auf einmal generieren, ohne dass eine schrittweise Generierung erforderlich ist. Dadurch wird die Generierungsgeschwindigkeit erheblich verbessert und eine qualitativ hochwertige Sprachausgabe aufrechterhalten. In 3 Sekunden wird ein mehrtöniges gemischtes Klonen erreicht.
Dieses Modell unterstützt 3 Funktionen:
* Sprachgenerierung durch eine Person (Batched TTS): Generieren Sie Text basierend auf hochgeladenem Audio.
* Podcast-Generierung:Simulieren Sie ein Zwei-Personen-Gespräch basierend auf Zwei-Personen-Audio.
* Generierung mehrerer Sprachtypen:Audios mit unterschiedlichen Emotionen können basierend auf den Audios desselben Sprechers mit unterschiedlichen Emotionen generiert werden.
Oben finden Sie die Rezension des Sound-Klonmodells, die wir für Sie vorbereitet haben. Wenn Sie Interesse haben, kommen Sie vorbei und erleben Sie es selbst!