HyperAIHyperAI

Command Palette

Search for a command to run...

Console

F5-E2 TTS Clone n'importe Quel Son En Seulement 3 Secondes

1. Introduction au tutoriel

Étoiles GitHub

Ce tutoriel comprend deux modèles d'utilisation de démonstration, à savoir F5-TTS et E2 TTS.

F5-TTS est un système de synthèse vocale (TTS) hautes performances, conjointement open source par l'Université Jiao Tong de Shanghai, l'Université de Cambridge et Geely Automobile Research Institute (Ningbo) Co., Ltd. en 2024. Il est basé sur une méthode de génération non autorégressive basée sur la correspondance de flux, combinée à la technologie Diffusion Transformer (DiT). Les résultats pertinents de l'article sontF5-TTS : un conteur de fées qui simule un discours fluide et fidèle grâce à la correspondance de fluxCe système peut générer rapidement une parole naturelle, fluide et fidèle au texte original grâce à un apprentissage sans interruption, sans supervision supplémentaire. F5-TTS prend en charge la synthèse vocale multilingue, dont le chinois et l'anglais, et permet une synthèse vocale efficace sur des textes longs. De plus, F5-TTS dispose d'une fonction de contrôle des émotions permettant d'ajuster l'expression émotionnelle de la parole synthétisée en fonction du contenu du texte. Il prend également en charge le contrôle de la vitesse, permettant aux utilisateurs d'ajuster la vitesse de lecture selon leurs besoins. Le système a été entraîné sur un ensemble de données à grande échelle de 100 000 heures et a démontré d'excellentes performances et capacités de généralisation. Les principales fonctionnalités de F5-TTS comprennent le clonage vocal sans échantillonnage, le contrôle de la vitesse, le contrôle de l'expression émotionnelle, la synthèse de textes longs et la prise en charge multilingue. Ses principes techniques incluent la correspondance de flux, le transformateur de diffusion (DiT), l'amélioration de la représentation textuelle ConvNeXt V2, la stratégie d'échantillonnage Sway et la conception système de bout en bout. F5-TTS dispose d'une large gamme de scénarios d'application, notamment les livres audio, les assistants vocaux, l'apprentissage des langues, la diffusion d'informations, le doublage de jeux, etc., offrant de puissantes capacités de synthèse vocale à diverses fins commerciales et non commerciales.

E2 TTS, abréviation de Embarrassingly Easy Text-to-Speech, est un système avancé de synthèse vocale (TTS) qui atteint un naturel de niveau humain et une similitude de locuteur grâce à un processus simplifié. Le cœur d'E2 TTS réside dans sa nature totalement non autorégressive, ce qui signifie qu'il peut générer la séquence vocale entière à la fois sans avoir besoin d'une génération étape par étape, augmentant considérablement la vitesse de génération tout en maintenant une sortie vocale de haute qualité. Les résultats pertinents de l'article sontE2 TTS : TTS Zero-Shot entièrement non autorégressif et incroyablement simple”, a été accepté par SLT 2024. Dans le framework E2 TTS, la saisie de texte est convertie en une séquence de caractères avec des jetons de remplissage. Un générateur de spectrogrammes Mel basé sur la correspondance de flux est ensuite entraîné pour la tâche de remplissage audio. Contrairement à de nombreux travaux antérieurs, il ne nécessite pas de composants supplémentaires (par exemple, modèles de durée, traduction graphème-phonème) ni de techniques complexes (par exemple, recherche d'alignement monotone). Malgré sa simplicité, E2 TTS atteint des capacités de synthèse vocale zéro-shot de pointe, comparables ou supérieures à celles des travaux précédents, notamment Voicebox et NaturalSpeech 3. La simplicité d'E2 TTS permet également une flexibilité dans la représentation des entrées.

该教程支持如下模型和功能:

2 个模型检查点:

F5-TTS
E2 TTS

3 个功能:

单人语音生成(Batched TTS): 根据上传的音频进行文本生成。
双人语音生成(Podcast Generation):根据双人音频模拟双人对话。
多种语音类型生成(Multiple Speech-Type Generation):可根据同一讲话人不同情绪下的音频,生成不同情绪的音频。

Ce tutoriel utilise une seule carte RTX 5090 comme ressource.

2. Exemples de projets

1. TTS par lots

2. Génération de podcasts

3. Génération de plusieurs types de discours

3. Étapes de l'opération

1. Après avoir démarré le conteneur, cliquez sur l'adresse API pour accéder à l'interface Web

2. Étapes d'utilisation

Si le message « Bad Gateway » s'affiche, cela signifie que le modèle est en cours d'initialisation. Ce modèle étant volumineux, veuillez patienter environ 9 minutes, puis actualiser la page.

Lorsque vous utilisez le navigateur Safari, l'audio peut ne pas être lu directement et doit être téléchargé avant la lecture.

1. TTS par lots

  Description des paramètres

  • Texte de référence: Laissez vide pour transcrire automatiquement l'audio de référence. Si vous saisissez du texte, il remplacera la transcription automatique.
  • Supprimer les silences:Ce modèle a tendance à produire du silence, en particulier sur les fichiers audio plus longs. Nous pouvons supprimer manuellement le silence si nécessaire. Veuillez noter qu'il s'agit d'une fonctionnalité expérimentale et qu'elle peut produire des résultats étranges. Cela augmentera également le temps de construction.
  • Mots séparés personnalisés: Saisissez les mots personnalisés à diviser, séparés par des virgules. Laissez vide pour utiliser la liste par défaut.
  • vitesse:Contrôler la vitesse de la parole générée

2. Génération de podcasts

3. Génération de plusieurs types de discours

Informations sur la citation

@article{chen-etal-2024-f5tts,
      title={F5-TTS: A Fairytaler that Fakes Fluent and Faithful Speech with Flow Matching}, 
      author={Yushen Chen and Zhikang Niu and Ziyang Ma and Keqi Deng and Chunhui Wang and Jian Zhao and Kai Yu and Xie Chen},
      journal={arXiv preprint arXiv:2410.06885},
      year={2024},
}

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp