Command Palette
Search for a command to run...
MiMo-Audio-7B-Instruct: Xiaomis Open-Source-End-to-End-Sprachmodell
Datum
Größe
1.82 GB
Lizenz
Apache 2.0
GitHub
Paper-URL
1. Einführung in das Tutorial

MiMo-Audio ist ein von Xiaomi im September 2025 veröffentlichtes, durchgängiges Sprachmodell. Die Trainingsdaten umfassen über 100 Millionen Stunden, und Forscher haben die Fähigkeiten des Modells im Few-Shot-Learning bei verschiedenen Audioaufgaben untersucht. Das Team evaluierte diese Fähigkeiten systematisch und stellte fest, dass MiMo-Audio-7B-Base in Benchmarks für Open-Source-Sprachintelligenz und Audioverständnis Bestleistungen erzielte. Neben Standardmetriken kann das Modell auch Aufgaben bearbeiten, die nicht in den Trainingsdaten enthalten sind, wie z. B. Sprachkonvertierung, Stiltransfer und Sprachbearbeitung. Darüber hinaus verfügt MiMo-Audio-7B-Base über leistungsstarke Funktionen zur Sprachfortsetzung und generiert äußerst realistische Talkshow-, Rezitations-, Live-Streaming- und Debatteninhalte. In der Nachbereitungsphase erstellten die Forscher diverse Korpora zur Feinabstimmung der Anweisungen und integrierten Denkprozesse in das Audioverständnis und die Audiogenerierung. Das daraus resultierende MiMo-Audio-7B-Instruct erzielte in Open-Source-Benchmarks für Audioverstehen, gesprochene Dialoge und Text-to-Speech (TTS) Bestleistungen und erreichte in einigen Szenarien nahezu die Leistung proprietärer Modelle oder übertraf diese sogar. Die entsprechenden Forschungsergebnisse sind: MiMo-Audio-Technischer-Bericht .
Dieses Tutorial verwendet eine einzelne RTX 5090-Grafikkarte als Rechenressource.
2. Effektbeispiele
1. 🔊 Audioverständnis

2. 🎵 Audiogenerierung Text-to-Speech

3. 🎤 Gesprochener Dialog

4. 💬 S2T-Dialog

5. 📝 Text-zu-Text-Dialog

3. Bedienungsschritte
1. Starten Sie den Container

2. Gewichtsparameter initialisieren
Wenn „Bad Gateway“ angezeigt wird, bedeutet dies, dass das Modell initialisiert wird. Da das Modell groß ist, warten Sie bitte etwa 2–3 Minuten und aktualisieren Sie die Seite.
Bei Verwendung des Safari-Browsers wird der Ton möglicherweise nicht direkt abgespielt und muss vor der Wiedergabe heruntergeladen werden.

3. Audioverständnis

4. Audiogenerierung

5. Sprachkonversation

6. Sprach-zu-Text-Konversation

7. Text-zu-Text-Konversation

Zitationsinformationen
@misc{coreteam2025mimoaudio,
title={MiMo-Audio: Audio Language Models are Few-Shot Learners},
author={LLM-Core-Team Xiaomi},
year={2025},
url={https://github.com/XiaomiMiMo/MiMo-Audio},
}
KI mit KI entwickeln
Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.