HyperAI

F5-E2 TTS Clone N'importe Quel Son En Seulement 3 Secondes

F5-TTS : Clonage de voix, dialogue à deux personnes, mixage multi-tons

Introduction au tutoriel

该教程仅需 RTX 4090 即可启动。

Ce tutoriel comprend deux modèles d'utilisation de démonstration, à savoir F5-TTS et E2 TTS.

F5-TTS est un système de synthèse vocale (TTS) hautes performances, conjointement open source par l'Université Jiao Tong de Shanghai, l'Université de Cambridge et Geely Automobile Research Institute (Ningbo) Co., Ltd. en 2024. Il est basé sur une méthode de génération non autorégressive basée sur la correspondance de flux, combinée à la technologie Diffusion Transformer (DiT). Les résultats pertinents de l'article sontF5-TTS : un conteur de fées qui simule un discours fluide et fidèle grâce à la correspondance de fluxCe système peut générer rapidement une parole naturelle, fluide et fidèle au texte original grâce à un apprentissage sans interruption, sans supervision supplémentaire. F5-TTS prend en charge la synthèse vocale multilingue, dont le chinois et l'anglais, et permet une synthèse vocale efficace sur des textes longs. De plus, F5-TTS dispose d'une fonction de contrôle des émotions permettant d'ajuster l'expression émotionnelle de la parole synthétisée en fonction du contenu du texte. Il prend également en charge le contrôle de la vitesse, permettant aux utilisateurs d'ajuster la vitesse de lecture selon leurs besoins. Le système a été entraîné sur un ensemble de données à grande échelle de 100 000 heures et a démontré d'excellentes performances et capacités de généralisation. Les principales fonctionnalités de F5-TTS comprennent le clonage vocal sans échantillonnage, le contrôle de la vitesse, le contrôle de l'expression émotionnelle, la synthèse de textes longs et la prise en charge multilingue. Ses principes techniques incluent la correspondance de flux, le transformateur de diffusion (DiT), l'amélioration de la représentation textuelle ConvNeXt V2, la stratégie d'échantillonnage Sway et la conception système de bout en bout. F5-TTS dispose d'une large gamme de scénarios d'application, notamment les livres audio, les assistants vocaux, l'apprentissage des langues, la diffusion d'informations, le doublage de jeux, etc., offrant de puissantes capacités de synthèse vocale à diverses fins commerciales et non commerciales.

E2 TTS, abréviation de Embarrassingly Easy Text-to-Speech, est un système avancé de synthèse vocale (TTS) qui atteint un naturel de niveau humain et une similitude de locuteur grâce à un processus simplifié. Le cœur d'E2 TTS réside dans sa nature totalement non autorégressive, ce qui signifie qu'il peut générer la séquence vocale entière à la fois sans avoir besoin d'une génération étape par étape, augmentant considérablement la vitesse de génération tout en maintenant une sortie vocale de haute qualité. Les résultats pertinents de l'article sontE2 TTS : TTS Zero-Shot entièrement non autorégressif et incroyablement simple”, a été accepté par SLT 2024. Dans le framework E2 TTS, la saisie de texte est convertie en une séquence de caractères avec des jetons de remplissage. Un générateur de spectrogrammes Mel basé sur la correspondance de flux est ensuite entraîné pour la tâche de remplissage audio. Contrairement à de nombreux travaux antérieurs, il ne nécessite pas de composants supplémentaires (par exemple, modèles de durée, traduction graphème-phonème) ni de techniques complexes (par exemple, recherche d'alignement monotone). Malgré sa simplicité, E2 TTS atteint des capacités de synthèse vocale zéro-shot de pointe, comparables ou supérieures à celles des travaux précédents, notamment Voicebox et NaturalSpeech 3. La simplicité d'E2 TTS permet également une flexibilité dans la représentation des entrées.

该教程支持如下模型和功能:

2 个模型检查点:
- F5-TTS
- E2 TTS

3 个功能:
- 单人语音生成(Batched TTS): 根据上传的音频进行文本生成。
- 双人语音生成(Podcast Generation):根据双人音频模拟双人对话。
- 多种语音类型生成(Multiple Speech-Type Generation):可根据同一讲话人不同情绪下的音频,生成不同情绪的音频。

Étapes de course

Après avoir démarré le conteneur, cliquez sur l'adresse API pour accéder à l'interface Web

1. TTS par lots

Sélectionnez la fonction TTS, téléchargez les invites audio et textuelles selon vos besoins et définissez les paramètres avancés selon vos besoins.

  • Audio: Téléchargez un clip audio clair et de haute qualité d'une seule personne parlant, et le modèle imitera le clip audio pour la génération.
  • Mot d'invite de texte:Le texte à générer.

Paramètres avancés

  • Texte de référence: Laissez vide pour transcrire automatiquement l'audio de référence. Si vous saisissez du texte, il remplacera la transcription automatique.
  • Supprimer les silences:Ce modèle a tendance à produire du silence, en particulier sur les fichiers audio plus longs. Nous pouvons supprimer manuellement le silence si nécessaire. Veuillez noter qu'il s'agit d'une fonctionnalité expérimentale et qu'elle peut produire des résultats étranges. Cela augmentera également le temps de construction.
  • Mots séparés personnalisés: Saisissez les mots personnalisés à diviser, séparés par des virgules. Laissez vide pour utiliser la liste par défaut.
  • vitesse:Contrôler la vitesse de la parole générée

Comme le montre la figure ci-dessous

2. Génération de podcasts

choisir Génération de podcasts Fonction, téléchargez des invites audio et textuelles multi-personnes comme requis ci-dessous. Cette fonction utilise le modèle pour imiter la conversation entre deux personnes et nécessite les noms et l'audio de deux personnes.

  • Audio:Téléchargez séparément deux audios vocaux clairs et de haute qualité, et le modèle imitera l'audio pour la génération.
  • Texte de référence: La valeur par défaut est vide pour transcrire automatiquement l'audio de référence. Si vous saisissez du texte, il remplacera la transcription automatique.
  • Sélectionnez le modèle: La valeur par défaut est F5-TTS

Comme le montre la figure ci-dessous

3. Génération de plusieurs types de discours

Sélectionnez la fonction de génération de plusieurs types de discours et téléchargez des invites audio et textuelles de différentes émotions comme requis ci-dessous. Cette fonction utilise le modèle pour simuler des émotions et générer de l'audio en fonction de différentes émotions.

  • Audio: Téléchargez plusieurs clips audio clairs et de haute qualité avec différentes émotions, et le modèle imitera l'audio à générer.
  • Texte de référence: La valeur par défaut est vide pour transcrire automatiquement l'audio de référence. Si vous saisissez du texte, il remplacera la transcription automatique.
  • Sélectionnez le modèle: La valeur par défaut est F5-TTS

Par exemple, téléchargez cinq clips audio : Normal, Surpris, Triste, En colère, Chuchotement, Cri, pour générer du texte :

(Régulier) Bonjour, j'aimerais commander un sandwich s'il vous plaît. (Surpris) Comment ça, tu n'as plus de pain ? (Triste) Mais j'avais vraiment envie d'un sandwich... (En colère) Tu sais quoi, toi et ta petite boutique, vous êtes nuls ! (Chuchote) Je vais juste rentrer à la maison et pleurer maintenant. (Criant) Pourquoi moi ?!

Vous pouvez générer un discours avec différentes émotions comme suit

Échange et discussion

🖌️ Si vous voyez un projet de haute qualité, veuillez laisser un message en arrière-plan pour le recommander ! De plus, nous avons également créé un groupe d’échange de tutoriels. Bienvenue aux amis pour scanner le code QR et commenter [Tutoriel SD] pour rejoindre le groupe pour discuter de divers problèmes techniques et partager les résultats de l'application↓