HyperAIHyperAI

NeuTTS-Air : Un Modèle De Clonage Vocal Léger Et Efficace

1. Introduction au tutoriel

Étoiles

NeuTTS-Air est un modèle de synthèse vocale (TTS) de bout en bout publié par Neuphonic en octobre 2025. Basé sur le backbone Qwen LLM (0,5 milliard de dollars) et le codec audio NeuCodec, il démontre des capacités d'apprentissage en quelques secondes pour le déploiement sur appareil et le clonage vocal instantané. L'évaluation système montre que NeuTTS Air atteint le niveau SOTA parmi les modèles open source, notamment dans les tests de synthèse ultra-réaliste et d'inférence en temps réel. Il est également généralisable à de nouveaux scénarios tels que les agents embarqués et le transfert de style, prend en charge le clonage audio de 3 secondes et génère un contenu conversationnel naturel. Après la formation, il présente la prise en charge de GGML/ONNX et le mécanisme de tatouage numérique, ce qui le place en tête du secteur open source pour l'évaluation de la synthèse vocale sur appareil et l'optimisation de la consommation d'énergie. Certains scénarios sont comparables à des modèles propriétaires.

Ce didacticiel utilise une seule carte RTX 5090 comme ressource et le modèle ne prend en charge que l'anglais.

2. Exemples de projets

3. Étapes de l'opération

1. Après avoir démarré le conteneur, cliquez sur l'adresse API pour accéder à l'interface Web

2. Une fois que vous entrez sur la page Web, vous pouvez utiliser le modèle

Si le message « Bad Gateway » s'affiche, cela signifie que le code s'exécute en arrière-plan. Veuillez patienter 2 à 3 minutes, puis actualisez la page.

Lorsque vous utilisez le navigateur Safari, l'audio peut ne pas être lu directement et doit être téléchargé avant la lecture.

Comment utiliser