Exécuter ce Notebook Discuter sur Discord

Date

il y a 4 mois

Taille

1.82 GB

Balises

Classification Audio

Text-to-Audio

Licence

Apache 2.0

GitHub

XiaomiMiMo/MiMo-Audio

URL du document

github.com

1. Introduction au tutoriel

MiMo-Audio est un modèle vocal complet, lancé par Xiaomi en septembre 2025. Ses données de pré-entraînement ont été étendues à plus de 100 millions d'heures, et les chercheurs ont observé ses capacités d'apprentissage avec peu d'exemples sur diverses tâches audio. L'équipe a évalué systématiquement ces capacités, constatant que MiMo-Audio-7B-Base a atteint des performances de pointe (SOTA) sur les benchmarks d'intelligence vocale et de compréhension audio pour les modèles open source. Outre les métriques standard, le modèle peut généraliser à des tâches non couvertes par les données d'entraînement, telles que la conversion vocale, le transfert de style et l'édition vocale. De plus, MiMo-Audio-7B-Base possède de puissantes capacités de continuation de la parole, générant des contenus de type talk-show, récitation, diffusion en direct et débat d'un réalisme saisissant. Lors de la phase de post-entraînement, les chercheurs ont constitué un ensemble diversifié de corpus d'instructions pour l'ajustement fin et ont introduit des mécanismes de pensée dans la compréhension et la génération audio. Le logiciel MiMo-Audio-7B-Instruct qui en résulte a atteint des performances de pointe dans les tests de performance open source pour la compréhension audio, le dialogue parlé et la synthèse vocale d'instructions, et dans certains cas, il a même égalé ou surpassé les modèles propriétaires. Les résultats de recherche pertinents sont les suivants : Rapport technique MiMo Audio .

Ce tutoriel utilise une seule carte graphique RTX 5090 comme ressource de calcul.

2. Exemples d'effets

1. 🔊 Compréhension audio

2. 🎵 Génération audio de synthèse vocale

3. 🎤 Dialogue parlé

4. 💬 Dialogue S2T

5. 📝 Dialogue texte à texte

3. Étapes de l'opération

1. Démarrez le conteneur

2. Initialiser les paramètres de poids

Si « Bad Gateway » s'affiche, cela signifie que le modèle est en cours d'initialisation. Étant donné que le modèle est grand, veuillez patienter environ 2 à 3 minutes et actualiser la page.

Lorsque vous utilisez le navigateur Safari, l'audio peut ne pas être lu directement et doit être téléchargé avant la lecture.

3. Compréhension audio

4. Génération audio

5. Conversation vocale

6. Conversation voix-texte

7. Conversation de texte à texte

Informations sur la citation

@misc{coreteam2025mimoaudio,
      title={MiMo-Audio: Audio Language Models are Few-Shot Learners}, 
      author={LLM-Core-Team Xiaomi},
      year={2025},
      url={https://github.com/XiaomiMiMo/MiMo-Audio}, 
}

Ce notebook est fourni par des utilisateurs de la communauté et est destiné à des fins éducatives et informatives uniquement. Si un contenu enfreint des droits d'auteur, veuillez nous contacter à [email protected] pour un examen et un retrait rapides.

Associé Notebooks

SoulX-Podcast : Génération Vocale De Textes Longs De Qualité Podcast Pour Plusieurs dialectes.

il y a 2 mois

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI