HyperAI

Tutorial Enthalten: Stimmklonmodell GPT-SoVITS, 5 Sekunden Sprache Können Eine Stimme Mit Einer Ähnlichkeit Von 95% Klonen

vor einem Jahr
Information
sh.guo
特色图像

„Stimme“ ist die „frühe Bildungstechnologie“, mit der Menschen mit KI in Kontakt kommen, und sie ist auch eine der ersten KI-Technologien, die das Labor verlassen und in Tausende von Haushalten Einzug gehalten hat. Ursprünglich konzentrierte sich die Forschung zur intelligenten Sprache auf die Spracherkennung, also darauf, Maschinen die menschliche Sprache verständlich zu machen.

Das erste computergestützte Spracherkennungssystem war Audrey, entwickelt von AT&T Bell Labs, das 10 englische Ziffern erkennen konnte. Im Jahr 1988 implementierte Kai-Fu Lee das erste Spracherkennungssystem mit großem Wortschatz, Sphinx, basierend auf dem Hidden-Markov-Modell. 1997 wurde Dragon NaturallySpeaking, das weltweit erste verbraucherorientierte kontinuierliche Sprachdiktiersystem, offiziell veröffentlicht. Im Jahr 2009 integrierte Microsoft Sprachfunktionen in das Betriebssystem Windows 7.

Im Jahr 2011 wurde das Meilensteinprodukt iPhone 4S veröffentlicht. Die Geburt von Siri brachte die intelligente Spracherkennung auf eine neue Stufe der „Interaktion“.Im selben Jahr kündigte Google an, dass es mit internen Tests der Google-Suche beginnen und in den nächsten Tagen die Sprachsuche auf Google.com einführen werde.

Der Übergang vom Hören zum Sprechen ist auch ein wichtiger Eckpfeiler für den Erfolg und die Entwicklung der Mensch-Computer-Interaktion. Heutzutage ist die Sprachinteraktion dank der kontinuierlichen Verbesserung der KI reibungsloser geworden, vom Smart Home über intelligentes Fahren bis hin zu Robotern, und zahlreiche Anwendungen florieren. Auf der technischen Seite haben die großen Cloud-Computing-Anbieter ihre KI-Sprachfunktionen in Form von APIs als Open Source bereitgestellt, sodass Entwickler darauf basierend weitere Anwendungen erstellen können.

Angesichts der anhaltenden Beliebtheit großer Modelle haben Open-Source-Funktionen direkt auf Modellebene in den letzten Jahren immer mehr Aufmerksamkeit erhalten. Entwickler können die Modelle trainieren und optimieren, um den Bereitstellungseffekt zwischen den Modellen und den von ihnen entwickelten Anwendungen weiter zu verbessern.

Vor nicht allzu langer Zeit,Der Gründer von RVC (Retrieval based Voice Conversion) (GitHub-Konto: RVC-Boss) hat ein Sprachklonprojekt namens GPT-SoVITS als Open Source veröffentlicht.Es erfreute sich unmittelbar nach seiner Einführung großer Beliebtheit. Viele Blogger und Entwickler haben verschiedene Segelbootlinien mit den Stimmen beliebter Film- und Fernsehfiguren sowie Anime-Figuren angepasst. Die dramatischen Effekte und die einfache Handhabung zogen auch eine Gruppe von Internetnutzern an und steigerten so die Popularität des Programms noch weiter. Tests führender Blogger zufolge kann man durch die Bereitstellung einer nur 5 Sekunden langen Sprachprobe eine geklonte Stimme mit einer Ähnlichkeit von 80%~95% erhalten.

Derzeit wurde das Tutorial zur Modellbereitstellung auf der offiziellen HyperAI-Website veröffentlicht. Klicken Sie hier, um mit dem Klonen zu beginnen:

https://hyper.ai/tutorials/29812

Der Herausgeber ließ die Originalfigur Paimon einen Cameo-Auftritt als Königin in Legend of Zhen Huan spielen.Paimeng wird in Sekundenschnelle zur Kaiserin Ulanara.

 Das Tutorial zum KI-Stimmklonen von Jack-Cui, einem beliebten Upmaster auf Station B, lautet wie folgt:

https://www.bilibili.com/video/BV1WC411W79t/?spm_id_from=333.788&vd_source=5e54209e1f8c68b7f1dc3df8aabf856c

Das Schritt-für-Schritt-Tutorial ist wie folgt. Sobald Sie 5 Sekunden Sprache bereit haben, können Sie mit dem Training Ihres Stimmklonmodells beginnen!

Datenaufbereitung

Derzeit sind in diesem Tutorial viele klassische Charaktertöne voreingestellt, die jeder ausprobieren kann. Wenn Sie andere Töne klonen möchten, müssen Sie eine Audiodatei des Tons im MP3-Format vorbereiten, vorzugsweise einen einzelnen Gesang (ca. 30 Sekunden). Hochwertige Audiodateien können den Realismus des geklonten Sounds verbessern.

1. Klicken Sie auf „Dieses Tutorial online ausführen“, um zur OpenBayes-Plattform zu springen.

2. Klicken Sie auf „Klonen“, um das Modell zu kopieren. (In diesem Schritt kann nur der von Jack-Cui, dem Upmaster der B-Station, hochgeladene Ton wiedergegeben werden.)

3. Wenn Sie den geklonten Sound anpassen möchten, müssen Sie einen neuen Datensatz erstellen. Nachdem Sie in der linken Menüleiste „Datensätze“ durchgegangen sind, klicken Sie auf „Neuen Datensatz erstellen“.

4. Nachdem Sie den „Datensatznamen“ und die „Datensatzbeschreibung“ wie erforderlich eingegeben haben, klicken Sie auf „Datensatz erstellen“.

5. Klicken Sie nach Abschluss der Erstellung oben rechts auf „Neue Version hochladen“ und laden Sie die Audiodatei hoch, die Sie klonen möchten.

Demolauf

1. Nachdem die Datenvorbereitung abgeschlossen ist, öffnen Sie „GPT-SoVITS Audio Synthesis Online Demo“ im „Öffentlichen Tutorial“ in der linken Menüleiste, kehren Sie zur Tutorial-Seite zurück und klicken Sie oben rechts auf „Klonen“, um das Tutorial in Ihren eigenen Container zu klonen.

2. Derzeit sind in der Demo die Audiodaten von Klee, Konkubine Hua, Zhen Huan und Fat Ju gebunden. Die Menge der gebundenen Daten ist derzeit voll. Sie können nicht benötigte Audiodaten löschen und Ihren eigenen Datensatz hinzufügen.

3. Klicken Sie nach dem Hinzufügen auf „Überprüfen und ausführen“.

4. Klicken Sie nach dem Springen auf die Seite auf „Weiter“. RTX 4090 wird empfohlen.

Der Herausgeber hat neue Benutzervorteile für alle gesichert! Neue Benutzer können sich über den unten stehenden Einladungslink registrieren, um 4 Stunden RTX 4090 + 5 Stunden kostenlose CPU-Rechenzeit zu erhalten.

Exklusiver Einladungslink von HyperAI (zum Registrieren kopieren und im Browser öffnen):

https://openbayes.com/console/signup?r=Ada0322_QZy7

5. Warten Sie einen Moment, bis sich der Status in „Wird ausgeführt“ ändert, und klicken Sie dann auf „Arbeitsbereich öffnen“. Das Klonen und erstmalige Starten des Containers dauert etwa 3–5 Minuten. Wenn der Status „Ressourcen zuweisen“ nach mehr als 10 Minuten immer noch besteht, versuchen Sie, den Container anzuhalten und neu zu starten. Wenn das Problem durch einen Neustart immer noch nicht behoben wird, wenden Sie sich bitte an den Kundenservice der Plattform auf der offiziellen Website.

6. Klicken Sie nach dem Öffnen des Arbeitsbereichs links auf "run.ipynb", klicken Sie in der Menüleiste auf die Schaltfläche "Ausführen" und klicken Sie auf "Alle Zellen ausführen".

7. Suchen Sie nach „Läuft auf öffentlicher URL“ und öffnen Sie den Link.

8. Geben Sie im Modul „Dataset-Adresse“ die Adresse des Datensatzes ein, für den Sie dieses Mal den Ton klonen möchten. Nachdem Sie den Audiodatentyp ausgewählt haben, klicken Sie auf „Training starten“. Wenn das Ausgabeergebnis „Das Modell startet die Vorhersage, bitte warten“ anzeigt, kehren Sie zu „run.ipynb“ zurück und Sie sehen „GPT-Training abgeschlossen“.

9. Öffnen Sie rechts die „API-Adresse“. Bitte beachten Sie, dass Benutzer vor der Verwendung der API-Adresszugriffsfunktion eine Echtnamenauthentifizierung durchführen müssen.

Effektanzeige

1. Wählen Sie das trainierte Modell in der „GPT-Modellliste“ und der „SoVITS-Modellliste“ aus, geben Sie dann den Text in „Inferenztext“ ein, klicken Sie auf „Inferenz starten“, warten Sie einen Moment und schon kann es losgehen!

Derzeit hat die offizielle Website von HyperAI Hunderte ausgewählter Tutorials zum Thema maschinelles Lernen veröffentlicht, die in Form von Jupyter-Notebooks organisiert sind.

Klicken Sie auf den Link, um nach verwandten Tutorials und Datensätzen zu suchen:

https://hyper.ai/tutorials