HyperAIHyperAI

Command Palette

Search for a command to run...

MiMo-Audio-7B-Instruct: Xiaomis Open-Source-End-to-End-Sprachmodell

1. Einführung in das Tutorial

Bauen

MiMo-Audio ist ein durchgängiges Sprachmodell, das im September 2025 von Xiaomi veröffentlicht wurde. Seine Vortrainingsdaten wurden auf über 100 Millionen Stunden erweitert, und Forscher haben beobachtet, dass es bei einer Vielzahl von Audioaufgaben die Fähigkeit zum Lernen in wenigen Schritten aufweist. Das Team bewertete diese Fähigkeiten systematisch und stellte fest, dass MiMo-Audio-7B-Base bei Open-Source-Modell-Benchmarks für Sprachintelligenz und Audioverständnis Spitzenergebnisse (SOTA) erzielte. Über Standardmetriken hinaus lässt sich das Modell auch auf Aufgaben generalisieren, die in den Trainingsdaten nicht abgedeckt sind, wie Stimmkonvertierung, Stilübertragung und Sprachbearbeitung. Darüber hinaus verfügt MiMo-Audio-7B-Base über leistungsstarke Sprachfortsetzungsfunktionen, die die Erstellung äußerst realistischer Talkshows, Rezitationen, Live-Übertragungen und Debatten ermöglichen. In der Phase nach dem Training stellten die Forscher ein vielfältiges Set von Korpora zur Feinabstimmung von Anweisungen zusammen und führten einen Denkmechanismus in das Audioverständnis und die Audiogenerierung ein. Das resultierende MiMo-Audio-7B-Instruct erzielte im Open-Source-Bereich Spitzenergebnisse bei Audioverständnis-Benchmarks, gesprochenen Dialog-Benchmarks und instruktionsbasierter Sprachsynthese (Instruct-TTS) und näherte sich in einigen Szenarien Closed-Source-Modellen an oder übertraf diese sogar. Die relevanten Ergebnisse der Studie sind:MiMo-Audio-Technischer-Bericht".

Dieses Tutorial verwendet eine einzelne RTX 5090-Grafikkarte als Rechenressource.

2. Effektbeispiele

1. 🔊 Audioverständnis

2. 🎵 Audiogenerierung Text-to-Speech

3. 🎤 Gesprochener Dialog

4. 💬 S2T-Dialog

5. 📝 Text-zu-Text-Dialog

3. Bedienungsschritte

1. Starten Sie den Container

2. Gewichtsparameter initialisieren

Wenn „Bad Gateway“ angezeigt wird, bedeutet dies, dass das Modell initialisiert wird. Da das Modell groß ist, warten Sie bitte etwa 2–3 Minuten und aktualisieren Sie die Seite.

Bei Verwendung des Safari-Browsers wird der Ton möglicherweise nicht direkt abgespielt und muss vor der Wiedergabe heruntergeladen werden.

3. Audioverständnis

4. Audiogenerierung

5. Sprachkonversation

6. Sprach-zu-Text-Konversation

7. Text-zu-Text-Konversation

Zitationsinformationen

@misc{coreteam2025mimoaudio,
      title={MiMo-Audio: Audio Language Models are Few-Shot Learners}, 
      author={LLM-Core-Team Xiaomi},
      year={2025},
      url={https://github.com/XiaomiMiMo/MiMo-Audio}, 
}

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp