Command Palette
Search for a command to run...
MiMo-Audio-7B-Instruct: Xiaomis Open-Source-End-to-End-Sprachmodell
An error occurred in the Server Components render. The specific message is omitted in production builds to avoid leaking sensitive details. A digest property is included on this error instance which may provide additional details about the nature of the error.
Failed to load notebook details1. Einführung in das Tutorial

MiMo-Audio ist ein von Xiaomi im September 2025 veröffentlichtes, durchgängiges Sprachmodell. Die Trainingsdaten umfassen über 100 Millionen Stunden, und Forscher haben die Fähigkeiten des Modells im Few-Shot-Learning bei verschiedenen Audioaufgaben untersucht. Das Team evaluierte diese Fähigkeiten systematisch und stellte fest, dass MiMo-Audio-7B-Base in Benchmarks für Open-Source-Sprachintelligenz und Audioverständnis Bestleistungen erzielte. Neben Standardmetriken kann das Modell auch Aufgaben bearbeiten, die nicht in den Trainingsdaten enthalten sind, wie z. B. Sprachkonvertierung, Stiltransfer und Sprachbearbeitung. Darüber hinaus verfügt MiMo-Audio-7B-Base über leistungsstarke Funktionen zur Sprachfortsetzung und generiert äußerst realistische Talkshow-, Rezitations-, Live-Streaming- und Debatteninhalte. In der Nachbereitungsphase erstellten die Forscher diverse Korpora zur Feinabstimmung der Anweisungen und integrierten Denkprozesse in das Audioverständnis und die Audiogenerierung. Das daraus resultierende MiMo-Audio-7B-Instruct erzielte in Open-Source-Benchmarks für Audioverstehen, gesprochene Dialoge und Text-to-Speech (TTS) Bestleistungen und erreichte in einigen Szenarien nahezu die Leistung proprietärer Modelle oder übertraf diese sogar. Die entsprechenden Forschungsergebnisse sind: MiMo-Audio-Technischer-Bericht .
Dieses Tutorial verwendet eine einzelne RTX 5090-Grafikkarte als Rechenressource.
2. Effektbeispiele
1. 🔊 Audioverständnis

2. 🎵 Audiogenerierung Text-to-Speech

3. 🎤 Gesprochener Dialog

4. 💬 S2T-Dialog

5. 📝 Text-zu-Text-Dialog

3. Bedienungsschritte
1. Starten Sie den Container

2. Gewichtsparameter initialisieren
Wenn „Bad Gateway“ angezeigt wird, bedeutet dies, dass das Modell initialisiert wird. Da das Modell groß ist, warten Sie bitte etwa 2–3 Minuten und aktualisieren Sie die Seite.
Bei Verwendung des Safari-Browsers wird der Ton möglicherweise nicht direkt abgespielt und muss vor der Wiedergabe heruntergeladen werden.

3. Audioverständnis

4. Audiogenerierung

5. Sprachkonversation

6. Sprach-zu-Text-Konversation

7. Text-zu-Text-Konversation

Zitationsinformationen
@misc{coreteam2025mimoaudio,
title={MiMo-Audio: Audio Language Models are Few-Shot Learners},
author={LLM-Core-Team Xiaomi},
year={2025},
url={https://github.com/XiaomiMiMo/MiMo-Audio},
}
Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.