HyperAIHyperAI

Command Palette

Search for a command to run...

MiMo-Audio-7B-Instruct : Le Modèle Vocal Open Source De Bout En Bout De Xiaomi

1. Introduction au tutoriel

Construire

MiMo-Audio est un modèle vocal complet lancé par Xiaomi en septembre 2025. Ses données de pré-entraînement ont été étendues à plus de 100 millions d'heures, et les chercheurs ont observé qu'il présente des capacités d'apprentissage en quelques secondes pour diverses tâches audio. L'équipe a évalué systématiquement ces capacités et a constaté que MiMo-Audio-7B-Base a obtenu des résultats de pointe (SOTA) lors de tests de modèles open source pour l'intelligence vocale et la compréhension audio. Au-delà des mesures standard, le modèle se généralise également à des tâches non couvertes par les données d'entraînement, telles que la conversion vocale, le transfert de style et l'édition vocale. De plus, MiMo-Audio-7B-Base possède de puissantes capacités de continuation vocale, permettant la génération de talk-shows, de récitations, d'émissions en direct et de débats très réalistes. Lors de la phase post-entraînement, les chercheurs ont compilé un ensemble diversifié de corpus d'instructions pour affiner les réglages et ont introduit un mécanisme de réflexion dans la compréhension et la génération audio. Le MiMo-Audio-7B-Instruct ainsi obtenu a obtenu des résultats de pointe dans le domaine open source en matière de tests de compréhension audio, de tests de dialogues parlés et de synthèse vocale basée sur les instructions (instruct-TTS), approchant voire surpassant les modèles propriétaires dans certains scénarios. Les résultats de l'article sont les suivants :Rapport technique MiMo Audio".

Ce tutoriel utilise une seule carte graphique RTX 5090 comme ressource de calcul.

2. Exemples d'effets

1. 🔊 Compréhension audio

2. 🎵 Génération audio de synthèse vocale

3. 🎤 Dialogue parlé

4. 💬 Dialogue S2T

5. 📝 Dialogue texte à texte

3. Étapes de l'opération

1. Démarrez le conteneur

2. Initialiser les paramètres de poids

Si « Bad Gateway » s'affiche, cela signifie que le modèle est en cours d'initialisation. Étant donné que le modèle est grand, veuillez patienter environ 2 à 3 minutes et actualiser la page.

Lorsque vous utilisez le navigateur Safari, l'audio peut ne pas être lu directement et doit être téléchargé avant la lecture.

3. Compréhension audio

4. Génération audio

5. Conversation vocale

6. Conversation voix-texte

7. Conversation de texte à texte

Informations sur la citation

@misc{coreteam2025mimoaudio,
      title={MiMo-Audio: Audio Language Models are Few-Shot Learners}, 
      author={LLM-Core-Team Xiaomi},
      year={2025},
      url={https://github.com/XiaomiMiMo/MiMo-Audio}, 
}

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp