HyperAIHyperAI

Command Palette

Search for a command to run...

Tutoriel En Ligne | Compatible Avec Plus De 600 Langues, Xiaomi Open Sources OmniVoice : Clonage Vocal Réussi Avec Seulement 3 À 10 Secondes D’audio De Référence

Avec le développement rapide de la technologie vocale d'IA, les modèles de synthèse vocale (TTS) passent de la simple capacité à « parler » à une communication naturelle, comme une personne réelle. Cependant, les systèmes existants sont encore généralement confrontés à des problèmes tels que des liens de génération complexes, des coûts d'entraînement élevés et une capacité de généralisation interlingue limitée en termes de couverture multilingue, de clonage vocal à partir d'un échantillon nul et de prise en charge des accents et dialectes complexes.

Dans ce contexte, le lancement d'OmniVoice représente une avancée majeure dans la génération vocale multilingue. Développé par l'équipe Kaldi nouvelle génération du laboratoire d'IA de Xiaomi, ce modèle prend en charge plus de 600 langues et intègre les fonctionnalités Voice Clone, Voice Design et Auto Voice. Contrairement au processus de génération traditionnel en deux étapes (« texte → sémantique → acoustique ») couramment utilisé dans les modèles de synthèse vocale, OmniVoice emploie une architecture discrète non autorégressive (NAR), similaire à un modèle de langage par diffusion, qui associe directement le texte à des jetons acoustiques issus de plusieurs dictionnaires de codes, simplifiant ainsi considérablement le processus de génération vocale.

Cette modification architecturale réduit non seulement les limitations de performance des modèles NAR discrets traditionnels dans les processus complexes, mais permet également à OmniVoice d'offrir de meilleures performances en matière de naturel, d'intelligibilité et de cohérence interlinguistique de la parole. Parallèlement, le modèle introduit une stratégie d'apprentissage par masque aléatoire couvrant l'ensemble du dictionnaire et est initialisé à partir d'un vaste modèle de langage pré-entraîné, ce qui améliore l'efficacité de l'apprentissage et la qualité de la synthèse vocale.

Plus important encore, OmniVoice n'est pas un simple modèle de synthèse vocale « multilingue ». Il couvre non seulement les langues les plus courantes comme le chinois, l'anglais, le japonais et le coréen, mais aussi des dialectes chinois tels que le dialecte du Henan, du Sichuan et du Nord-Est de la Chine, ainsi que diverses variantes d'anglais, notamment les accents américain, britannique, australien et indien. Grâce à sa capacité de clonage vocal sans échantillon, qui ne nécessite que quelques secondes d'audio de référence, il offre un immense potentiel d'application dans des domaines tels que la voix off par IA, les humains numériques, la génération de contenu multilingue et l'interaction vocale internationale.

Actuellement, la section tutoriels du site officiel d'HyperAI (hyper.ai) propose « OmniVoice : TTS de haute qualité prenant en charge plus de 600 langues », qui peut être lancé en un clic et déployé avec de faibles barrières à l'entrée.

Exécutez en ligne :

https://go.hyper.ai/oxpij

exemple de démonstration

Plus de tutoriels en ligne :

https://hyper.ai/notebooks

Bienvenue sur notre site web officiel pour plus d'informations :

https://hyper.ai

Essai de démonstration

1. Après avoir accédé à la page d'accueil d'hyper.ai, sélectionnez la page « Tutoriels » ou cliquez sur « Voir plus de tutoriels », sélectionnez « OmniVoice : TTS de haute qualité prenant en charge plus de 600 langues », puis cliquez sur « Exécuter ce tutoriel ».

2. Une fois la page redirigée, cliquez sur « Cloner » en haut à droite pour cloner le tutoriel dans votre propre conteneur.

Remarque : Vous pouvez changer de langue en haut à droite de la page. Actuellement, le chinois et l’anglais sont disponibles. Ce tutoriel présente les étapes en anglais.

3. Sélectionnez les images « NVIDIA RTX 5090 » et « PyTorch », puis cliquez sur « Continuer l'exécution de la tâche ».

HyperAI propose un bonus d'inscription pour les nouveaux utilisateurs : pour seulement $1, vous pouvez obtenir 20 heures de puissance de calcul RTX 5090 (au lieu de $7), et les ressources sont valables indéfiniment.

4. Attendez que les ressources soient allouées. Une fois que le statut passe à « En cours d'exécution », cliquez sur « Ouvrir l'espace de travail » pour accéder à l'espace de travail Jupyter.

Affichage des effets

1. Une fois la page redirigée, cliquez sur le fichier README à gauche, puis sur « Exécuter » en haut.

2. Une fois le processus terminé, cliquez sur l'adresse API à droite pour accéder à la page de démonstration.