Tutoriel En Ligne | Compatible Avec Plus De 600 Langues, Xiaomi Open Sources OmniVoice : Clonage Vocal Réussi Avec Seulement 3 À 10 Secondes D’audio De Référence

Avec le développement rapide de la technologie vocale d'IA, les modèles de synthèse vocale (TTS) passent de la simple capacité à « parler » à une communication naturelle, comme une personne réelle. Cependant, les systèmes existants sont encore généralement confrontés à des problèmes tels que des liens de génération complexes, des coûts d'entraînement élevés et une capacité de généralisation interlingue limitée en termes de couverture multilingue, de clonage vocal à partir d'un échantillon nul et de prise en charge des accents et dialectes complexes.

Dans ce contexte, le lancement d'OmniVoice représente une avancée majeure dans la génération vocale multilingue. Développé par l'équipe Kaldi nouvelle génération du laboratoire d'IA de Xiaomi, ce modèle prend en charge plus de 600 langues et intègre les fonctionnalités Voice Clone, Voice Design et Auto Voice. Contrairement au processus de génération traditionnel en deux étapes (« texte → sémantique → acoustique ») couramment utilisé dans les modèles de synthèse vocale, OmniVoice emploie une architecture discrète non autorégressive (NAR), similaire à un modèle de langage par diffusion, qui associe directement le texte à des jetons acoustiques issus de plusieurs dictionnaires de codes, simplifiant ainsi considérablement le processus de génération vocale.

Cette modification architecturale réduit non seulement les limitations de performance des modèles NAR discrets traditionnels dans les processus complexes, mais permet également à OmniVoice d'offrir de meilleures performances en matière de naturel, d'intelligibilité et de cohérence interlinguistique de la parole. Parallèlement, le modèle introduit une stratégie d'apprentissage par masque aléatoire couvrant l'ensemble du dictionnaire et est initialisé à partir d'un vaste modèle de langage pré-entraîné, ce qui améliore l'efficacité de l'apprentissage et la qualité de la synthèse vocale.

Plus important encore, OmniVoice n'est pas un simple modèle de synthèse vocale « multilingue ». Il couvre non seulement les langues les plus courantes comme le chinois, l'anglais, le japonais et le coréen, mais aussi des dialectes chinois tels que le dialecte du Henan, du Sichuan et du Nord-Est de la Chine, ainsi que diverses variantes d'anglais, notamment les accents américain, britannique, australien et indien. Grâce à sa capacité de clonage vocal sans échantillon, qui ne nécessite que quelques secondes d'audio de référence, il offre un immense potentiel d'application dans des domaines tels que la voix off par IA, les humains numériques, la génération de contenu multilingue et l'interaction vocale internationale.

Actuellement, la section tutoriels du site officiel d'HyperAI (hyper.ai) propose « OmniVoice : TTS de haute qualité prenant en charge plus de 600 langues », qui peut être lancé en un clic et déployé avec de faibles barrières à l'entrée.

Exécutez en ligne :

https://go.hyper.ai/oxpij

Plus de tutoriels en ligne :

https://hyper.ai/notebooks

Bienvenue sur notre site web officiel pour plus d'informations :

https://hyper.ai

Essai de démonstration

1. Après avoir accédé à la page d'accueil d'hyper.ai, sélectionnez la page « Tutoriels » ou cliquez sur « Voir plus de tutoriels », sélectionnez « OmniVoice : TTS de haute qualité prenant en charge plus de 600 langues », puis cliquez sur « Exécuter ce tutoriel ».

2. Une fois la page redirigée, cliquez sur « Cloner » en haut à droite pour cloner le tutoriel dans votre propre conteneur.

Remarque : Vous pouvez changer de langue en haut à droite de la page. Actuellement, le chinois et l’anglais sont disponibles. Ce tutoriel présente les étapes en anglais.

3. Sélectionnez les images « NVIDIA RTX 5090 » et « PyTorch », puis cliquez sur « Continuer l'exécution de la tâche ».

HyperAI propose un bonus d'inscription pour les nouveaux utilisateurs : pour seulement $1, vous pouvez obtenir 20 heures de puissance de calcul RTX 5090 (au lieu de $7), et les ressources sont valables indéfiniment.

4. Attendez que les ressources soient allouées. Une fois que le statut passe à « En cours d'exécution », cliquez sur « Ouvrir l'espace de travail » pour accéder à l'espace de travail Jupyter.

Affichage des effets

1. Une fois la page redirigée, cliquez sur le fichier README à gauche, puis sur « Exécuter » en haut.

2. Une fois le processus terminé, cliquez sur l'adresse API à droite pour accéder à la page de démonstration.

HyperAI

Tutoriel En Ligne | Compatible Avec Plus De 600 Langues, Xiaomi Open Sources OmniVoice : Clonage Vocal Réussi Avec Seulement 3 À 10 Secondes D’audio De Référence

il y a 2 mois

Information

Intelligence Artificielle

Text-to-Speech

Exécutez en ligne :

https://go.hyper.ai/oxpij

Plus de tutoriels en ligne :

https://hyper.ai/notebooks

Bienvenue sur notre site web officiel pour plus d'informations :

https://hyper.ai

Essai de démonstration

2. Une fois la page redirigée, cliquez sur « Cloner » en haut à droite pour cloner le tutoriel dans votre propre conteneur.

Remarque : Vous pouvez changer de langue en haut à droite de la page. Actuellement, le chinois et l’anglais sont disponibles. Ce tutoriel présente les étapes en anglais.

3. Sélectionnez les images « NVIDIA RTX 5090 » et « PyTorch », puis cliquez sur « Continuer l'exécution de la tâche ».

Affichage des effets

1. Une fois la page redirigée, cliquez sur le fichier README à gauche, puis sur « Exécuter » en haut.

2. Une fois le processus terminé, cliquez sur l'adresse API à droite pour accéder à la page de démonstration.

Associé Actualités

Révolution TTS Sans Échantillonnage ! Quelques Secondes D’audio De Référence Suffisent : OmniVoice Vous Permet De Cloner Facilement Des Centaines De Langues ; 17 Langues En Une Seule Fois : MDPbench Résout Le Problème Majeur De L’analyse Syntaxique Des Systèmes De Texte À Faibles ressources.

Tencent Rend open-source Le Modèle De Traduction Hy-MT1.5 : 440MB Atteint Des Capacités De Traduction De Haut Niveau ; Le MIT Publie Conjointement MathNet : Un Banc D’essai D’inférence Mathématique Multimodale Couvrant 27 000 Problèmes Mathématiques Réels Des Olympiades.

Obtenez Une « Liberté De Voix off » Avec Seulement 3 Secondes d'audio : Le Modèle De Parole open-source Mistral Voxtral-4B-TTS-2603 ; Établissez Une Nouvelle Référence En Matière De Qualité Des Données : Le Pré-entraînement Sutra 10B.

Tutoriel Gratuit Sur Les Processeurs | Avec 8 800 Étoiles, Le Modèle De Synthèse Vocale Supertonic-3 Ne Possède qu'environ 99 Millions De Paramètres Et Prend En Charge 31 langues.

Rapide Et Précis ! Cohere Publie Un Modèle De Transcription Open Source ; Analyse Précise De Scénarios Complexes : Le Modèle De Langage Visuel Chandra-ocr-2 Permet Une Reconnaissance Optique De Caractères (OCR) précise.

Tutoriel En Ligne | L'équipe De l'Université De Hong Kong Publie Le Code Source De DeepTutor, Un Assistant d'apprentissage Personnel Qui Facilite l'apprentissage Interactif Couvrant La Compréhension, Le Raisonnement Et La Génération Grâce À La Collaboration multi-agents.

Tutoriel En Ligne | Guide Approfondi Sur Le Suivi d'instructions/l'inférence/la Programmation : Mistral Medium 3.5 Déploie Des Agents De Programmation Dans Le Cloud

Sortie d'image En 4 étapes/qualité 4K/accélération 6x, PiD Utilise La Diffusion De Pixels Pour Unifier Le Décodage Et La Sortie Super-résolution ; SA-3DAO : Un Ensemble De Données Contenant 1 000 Paires d'images Réelles Associées À Des Maillages 3D Fabriqués À La Main Par Des artistes.

Tutoriel En Ligne | Modification Intensive d'une Seule Carte Disponible ; MiniCPM-V-4.6 Open-source, Modèle De Bord 1.3B Prenant En Charge La Compréhension d'images/de vidéos/OCR/dialogue Multimodal À Plusieurs tours.

HyperAI

Tutoriel En Ligne | Compatible Avec Plus De 600 Langues, Xiaomi Open Sources OmniVoice : Clonage Vocal Réussi Avec Seulement 3 À 10 Secondes D’audio De Référence

il y a 2 mois

Information

Intelligence Artificielle

Text-to-Speech

Exécutez en ligne :

https://go.hyper.ai/oxpij

Plus de tutoriels en ligne :

https://hyper.ai/notebooks

Bienvenue sur notre site web officiel pour plus d'informations :

https://hyper.ai

Essai de démonstration

2. Une fois la page redirigée, cliquez sur « Cloner » en haut à droite pour cloner le tutoriel dans votre propre conteneur.

Remarque : Vous pouvez changer de langue en haut à droite de la page. Actuellement, le chinois et l’anglais sont disponibles. Ce tutoriel présente les étapes en anglais.

3. Sélectionnez les images « NVIDIA RTX 5090 » et « PyTorch », puis cliquez sur « Continuer l'exécution de la tâche ».

Affichage des effets

1. Une fois la page redirigée, cliquez sur le fichier README à gauche, puis sur « Exécuter » en haut.

2. Une fois le processus terminé, cliquez sur l'adresse API à droite pour accéder à la page de démonstration.

Associé Actualités

Révolution TTS Sans Échantillonnage ! Quelques Secondes D’audio De Référence Suffisent : OmniVoice Vous Permet De Cloner Facilement Des Centaines De Langues ; 17 Langues En Une Seule Fois : MDPbench Résout Le Problème Majeur De L’analyse Syntaxique Des Systèmes De Texte À Faibles ressources.

Tencent Rend open-source Le Modèle De Traduction Hy-MT1.5 : 440MB Atteint Des Capacités De Traduction De Haut Niveau ; Le MIT Publie Conjointement MathNet : Un Banc D’essai D’inférence Mathématique Multimodale Couvrant 27 000 Problèmes Mathématiques Réels Des Olympiades.

Obtenez Une « Liberté De Voix off » Avec Seulement 3 Secondes d'audio : Le Modèle De Parole open-source Mistral Voxtral-4B-TTS-2603 ; Établissez Une Nouvelle Référence En Matière De Qualité Des Données : Le Pré-entraînement Sutra 10B.

Tutoriel Gratuit Sur Les Processeurs | Avec 8 800 Étoiles, Le Modèle De Synthèse Vocale Supertonic-3 Ne Possède qu'environ 99 Millions De Paramètres Et Prend En Charge 31 langues.

Rapide Et Précis ! Cohere Publie Un Modèle De Transcription Open Source ; Analyse Précise De Scénarios Complexes : Le Modèle De Langage Visuel Chandra-ocr-2 Permet Une Reconnaissance Optique De Caractères (OCR) précise.

Tutoriel En Ligne | L'équipe De l'Université De Hong Kong Publie Le Code Source De DeepTutor, Un Assistant d'apprentissage Personnel Qui Facilite l'apprentissage Interactif Couvrant La Compréhension, Le Raisonnement Et La Génération Grâce À La Collaboration multi-agents.

Tutoriel En Ligne | Guide Approfondi Sur Le Suivi d'instructions/l'inférence/la Programmation : Mistral Medium 3.5 Déploie Des Agents De Programmation Dans Le Cloud

Sortie d'image En 4 étapes/qualité 4K/accélération 6x, PiD Utilise La Diffusion De Pixels Pour Unifier Le Décodage Et La Sortie Super-résolution ; SA-3DAO : Un Ensemble De Données Contenant 1 000 Paires d'images Réelles Associées À Des Maillages 3D Fabriqués À La Main Par Des artistes.

Tutoriel En Ligne | Modification Intensive d'une Seule Carte Disponible ; MiniCPM-V-4.6 Open-source, Modèle De Bord 1.3B Prenant En Charge La Compréhension d'images/de vidéos/OCR/dialogue Multimodal À Plusieurs tours.

Command Palette

Tutoriel En Ligne | Compatible Avec Plus De 600 Langues, Xiaomi Open Sources OmniVoice : Clonage Vocal Réussi Avec Seulement 3 À 10 Secondes D’audio De Référence

Essai de démonstration

Affichage des effets

Command Palette

Tutoriel En Ligne | Compatible Avec Plus De 600 Langues, Xiaomi Open Sources OmniVoice : Clonage Vocal Réussi Avec Seulement 3 À 10 Secondes D’audio De Référence

Essai de démonstration

Affichage des effets

Associé Actualités

Tencent Rend open-source Le Modèle De Traduction Hy-MT1.5 : 440MB Atteint Des Capacités De Traduction De Haut Niveau ; Le MIT Publie Conjointement MathNet : Un Banc D’essai D’inférence Mathématique Multimodale Couvrant 27 000 Problèmes Mathématiques Réels Des Olympiades.

Obtenez Une « Liberté De Voix off » Avec Seulement 3 Secondes d'audio : Le Modèle De Parole open-source Mistral Voxtral-4B-TTS-2603 ; Établissez Une Nouvelle Référence En Matière De Qualité Des Données : Le Pré-entraînement Sutra 10B.

Tutoriel Gratuit Sur Les Processeurs | Avec 8 800 Étoiles, Le Modèle De Synthèse Vocale Supertonic-3 Ne Possède qu'environ 99 Millions De Paramètres Et Prend En Charge 31 langues.

Rapide Et Précis ! Cohere Publie Un Modèle De Transcription Open Source ; Analyse Précise De Scénarios Complexes : Le Modèle De Langage Visuel Chandra-ocr-2 Permet Une Reconnaissance Optique De Caractères (OCR) précise.

Tutoriel En Ligne | L'équipe De l'Université De Hong Kong Publie Le Code Source De DeepTutor, Un Assistant d'apprentissage Personnel Qui Facilite l'apprentissage Interactif Couvrant La Compréhension, Le Raisonnement Et La Génération Grâce À La Collaboration multi-agents.

Tutoriel En Ligne | Guide Approfondi Sur Le Suivi d'instructions/l'inférence/la Programmation : Mistral Medium 3.5 Déploie Des Agents De Programmation Dans Le Cloud

Sortie d'image En 4 étapes/qualité 4K/accélération 6x, PiD Utilise La Diffusion De Pixels Pour Unifier Le Décodage Et La Sortie Super-résolution ; SA-3DAO : Un Ensemble De Données Contenant 1 000 Paires d'images Réelles Associées À Des Maillages 3D Fabriqués À La Main Par Des artistes.

Tutoriel En Ligne | Modification Intensive d'une Seule Carte Disponible ; MiniCPM-V-4.6 Open-source, Modèle De Bord 1.3B Prenant En Charge La Compréhension d'images/de vidéos/OCR/dialogue Multimodal À Plusieurs tours.

Command Palette

Tutoriel En Ligne | Compatible Avec Plus De 600 Langues, Xiaomi Open Sources OmniVoice : Clonage Vocal Réussi Avec Seulement 3 À 10 Secondes D’audio De Référence

Essai de démonstration

Affichage des effets

Associé Actualités

Tencent Rend open-source Le Modèle De Traduction Hy-MT1.5 : 440MB Atteint Des Capacités De Traduction De Haut Niveau ; Le MIT Publie Conjointement MathNet : Un Banc D’essai D’inférence Mathématique Multimodale Couvrant 27 000 Problèmes Mathématiques Réels Des Olympiades.

Obtenez Une « Liberté De Voix off » Avec Seulement 3 Secondes d'audio : Le Modèle De Parole open-source Mistral Voxtral-4B-TTS-2603 ; Établissez Une Nouvelle Référence En Matière De Qualité Des Données : Le Pré-entraînement Sutra 10B.

Tutoriel Gratuit Sur Les Processeurs | Avec 8 800 Étoiles, Le Modèle De Synthèse Vocale Supertonic-3 Ne Possède qu'environ 99 Millions De Paramètres Et Prend En Charge 31 langues.

Rapide Et Précis ! Cohere Publie Un Modèle De Transcription Open Source ; Analyse Précise De Scénarios Complexes : Le Modèle De Langage Visuel Chandra-ocr-2 Permet Une Reconnaissance Optique De Caractères (OCR) précise.

Tutoriel En Ligne | L'équipe De l'Université De Hong Kong Publie Le Code Source De DeepTutor, Un Assistant d'apprentissage Personnel Qui Facilite l'apprentissage Interactif Couvrant La Compréhension, Le Raisonnement Et La Génération Grâce À La Collaboration multi-agents.

Tutoriel En Ligne | Guide Approfondi Sur Le Suivi d'instructions/l'inférence/la Programmation : Mistral Medium 3.5 Déploie Des Agents De Programmation Dans Le Cloud

Sortie d'image En 4 étapes/qualité 4K/accélération 6x, PiD Utilise La Diffusion De Pixels Pour Unifier Le Décodage Et La Sortie Super-résolution ; SA-3DAO : Un Ensemble De Données Contenant 1 000 Paires d'images Réelles Associées À Des Maillages 3D Fabriqués À La Main Par Des artistes.

Tutoriel En Ligne | Modification Intensive d'une Seule Carte Disponible ; MiniCPM-V-4.6 Open-source, Modèle De Bord 1.3B Prenant En Charge La Compréhension d'images/de vidéos/OCR/dialogue Multimodal À Plusieurs tours.

Associé Actualités

Tencent Rend open-source Le Modèle De Traduction Hy-MT1.5 : 440MB Atteint Des Capacités De Traduction De Haut Niveau ; Le MIT Publie Conjointement MathNet : Un Banc D’essai D’inférence Mathématique Multimodale Couvrant 27 000 Problèmes Mathématiques Réels Des Olympiades.

Obtenez Une « Liberté De Voix off » Avec Seulement 3 Secondes d'audio : Le Modèle De Parole open-source Mistral Voxtral-4B-TTS-2603 ; Établissez Une Nouvelle Référence En Matière De Qualité Des Données : Le Pré-entraînement Sutra 10B.

Tutoriel Gratuit Sur Les Processeurs | Avec 8 800 Étoiles, Le Modèle De Synthèse Vocale Supertonic-3 Ne Possède qu'environ 99 Millions De Paramètres Et Prend En Charge 31 langues.

Rapide Et Précis ! Cohere Publie Un Modèle De Transcription Open Source ; Analyse Précise De Scénarios Complexes : Le Modèle De Langage Visuel Chandra-ocr-2 Permet Une Reconnaissance Optique De Caractères (OCR) précise.

Tutoriel En Ligne | L'équipe De l'Université De Hong Kong Publie Le Code Source De DeepTutor, Un Assistant d'apprentissage Personnel Qui Facilite l'apprentissage Interactif Couvrant La Compréhension, Le Raisonnement Et La Génération Grâce À La Collaboration multi-agents.

Tutoriel En Ligne | Guide Approfondi Sur Le Suivi d'instructions/l'inférence/la Programmation : Mistral Medium 3.5 Déploie Des Agents De Programmation Dans Le Cloud

Sortie d'image En 4 étapes/qualité 4K/accélération 6x, PiD Utilise La Diffusion De Pixels Pour Unifier Le Décodage Et La Sortie Super-résolution ; SA-3DAO : Un Ensemble De Données Contenant 1 000 Paires d'images Réelles Associées À Des Maillages 3D Fabriqués À La Main Par Des artistes.

Tutoriel En Ligne | Modification Intensive d'une Seule Carte Disponible ; MiniCPM-V-4.6 Open-source, Modèle De Bord 1.3B Prenant En Charge La Compréhension d'images/de vidéos/OCR/dialogue Multimodal À Plusieurs tours.

Associé Actualités

Tencent Rend open-source Le Modèle De Traduction Hy-MT1.5 : 440MB Atteint Des Capacités De Traduction De Haut Niveau ; Le MIT Publie Conjointement MathNet : Un Banc D’essai D’inférence Mathématique Multimodale Couvrant 27 000 Problèmes Mathématiques Réels Des Olympiades.

Obtenez Une « Liberté De Voix off » Avec Seulement 3 Secondes d'audio : Le Modèle De Parole open-source Mistral Voxtral-4B-TTS-2603 ; Établissez Une Nouvelle Référence En Matière De Qualité Des Données : Le Pré-entraînement Sutra 10B.

Tutoriel Gratuit Sur Les Processeurs | Avec 8 800 Étoiles, Le Modèle De Synthèse Vocale Supertonic-3 Ne Possède qu'environ 99 Millions De Paramètres Et Prend En Charge 31 langues.

Rapide Et Précis ! Cohere Publie Un Modèle De Transcription Open Source ; Analyse Précise De Scénarios Complexes : Le Modèle De Langage Visuel Chandra-ocr-2 Permet Une Reconnaissance Optique De Caractères (OCR) précise.

Tutoriel En Ligne | L'équipe De l'Université De Hong Kong Publie Le Code Source De DeepTutor, Un Assistant d'apprentissage Personnel Qui Facilite l'apprentissage Interactif Couvrant La Compréhension, Le Raisonnement Et La Génération Grâce À La Collaboration multi-agents.

Tutoriel En Ligne | Guide Approfondi Sur Le Suivi d'instructions/l'inférence/la Programmation : Mistral Medium 3.5 Déploie Des Agents De Programmation Dans Le Cloud

Sortie d'image En 4 étapes/qualité 4K/accélération 6x, PiD Utilise La Diffusion De Pixels Pour Unifier Le Décodage Et La Sortie Super-résolution ; SA-3DAO : Un Ensemble De Données Contenant 1 000 Paires d'images Réelles Associées À Des Maillages 3D Fabriqués À La Main Par Des artistes.

Tutoriel En Ligne | Modification Intensive d'une Seule Carte Disponible ; MiniCPM-V-4.6 Open-source, Modèle De Bord 1.3B Prenant En Charge La Compréhension d'images/de vidéos/OCR/dialogue Multimodal À Plusieurs tours.