HyperAIHyperAI

Command Palette

Search for a command to run...

MiMo-Audio-7B-Instruct: Xiaomis Open-Source-End-to-End-Sprachmodell

Datum

vor 4 Monaten

Größe

1.82 GB

Lizenz

Apache 2.0

Paper-URL

github.com

1. Einführung in das Tutorial

Bauen

MiMo-Audio ist ein von Xiaomi im September 2025 veröffentlichtes, durchgängiges Sprachmodell. Die Trainingsdaten umfassen über 100 Millionen Stunden, und Forscher haben die Fähigkeiten des Modells im Few-Shot-Learning bei verschiedenen Audioaufgaben untersucht. Das Team evaluierte diese Fähigkeiten systematisch und stellte fest, dass MiMo-Audio-7B-Base in Benchmarks für Open-Source-Sprachintelligenz und Audioverständnis Bestleistungen erzielte. Neben Standardmetriken kann das Modell auch Aufgaben bearbeiten, die nicht in den Trainingsdaten enthalten sind, wie z. B. Sprachkonvertierung, Stiltransfer und Sprachbearbeitung. Darüber hinaus verfügt MiMo-Audio-7B-Base über leistungsstarke Funktionen zur Sprachfortsetzung und generiert äußerst realistische Talkshow-, Rezitations-, Live-Streaming- und Debatteninhalte. In der Nachbereitungsphase erstellten die Forscher diverse Korpora zur Feinabstimmung der Anweisungen und integrierten Denkprozesse in das Audioverständnis und die Audiogenerierung. Das daraus resultierende MiMo-Audio-7B-Instruct erzielte in Open-Source-Benchmarks für Audioverstehen, gesprochene Dialoge und Text-to-Speech (TTS) Bestleistungen und erreichte in einigen Szenarien nahezu die Leistung proprietärer Modelle oder übertraf diese sogar. Die entsprechenden Forschungsergebnisse sind: MiMo-Audio-Technischer-Bericht .

Dieses Tutorial verwendet eine einzelne RTX 5090-Grafikkarte als Rechenressource.

2. Effektbeispiele

1. 🔊 Audioverständnis

2. 🎵 Audiogenerierung Text-to-Speech

3. 🎤 Gesprochener Dialog

4. 💬 S2T-Dialog

5. 📝 Text-zu-Text-Dialog

3. Bedienungsschritte

1. Starten Sie den Container

2. Gewichtsparameter initialisieren

Wenn „Bad Gateway“ angezeigt wird, bedeutet dies, dass das Modell initialisiert wird. Da das Modell groß ist, warten Sie bitte etwa 2–3 Minuten und aktualisieren Sie die Seite.

Bei Verwendung des Safari-Browsers wird der Ton möglicherweise nicht direkt abgespielt und muss vor der Wiedergabe heruntergeladen werden.

3. Audioverständnis

4. Audiogenerierung

5. Sprachkonversation

6. Sprach-zu-Text-Konversation

7. Text-zu-Text-Konversation

Zitationsinformationen

@misc{coreteam2025mimoaudio,
      title={MiMo-Audio: Audio Language Models are Few-Shot Learners}, 
      author={LLM-Core-Team Xiaomi},
      year={2025},
      url={https://github.com/XiaomiMiMo/MiMo-Audio}, 
}

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp