Dieses Notebook ausführen Auf Discord diskutieren

Datum

vor 8 Monaten

1. Einführung in das Tutorial

MiMo-Audio ist ein von Xiaomi im September 2025 veröffentlichtes, durchgängiges Sprachmodell. Die Trainingsdaten umfassen über 100 Millionen Stunden, und Forscher haben die Fähigkeiten des Modells im Few-Shot-Learning bei verschiedenen Audioaufgaben untersucht. Das Team evaluierte diese Fähigkeiten systematisch und stellte fest, dass MiMo-Audio-7B-Base in Benchmarks für Open-Source-Sprachintelligenz und Audioverständnis Bestleistungen erzielte. Neben Standardmetriken kann das Modell auch Aufgaben bearbeiten, die nicht in den Trainingsdaten enthalten sind, wie z. B. Sprachkonvertierung, Stiltransfer und Sprachbearbeitung. Darüber hinaus verfügt MiMo-Audio-7B-Base über leistungsstarke Funktionen zur Sprachfortsetzung und generiert äußerst realistische Talkshow-, Rezitations-, Live-Streaming- und Debatteninhalte. In der Nachbereitungsphase erstellten die Forscher diverse Korpora zur Feinabstimmung der Anweisungen und integrierten Denkprozesse in das Audioverständnis und die Audiogenerierung. Das daraus resultierende MiMo-Audio-7B-Instruct erzielte in Open-Source-Benchmarks für Audioverstehen, gesprochene Dialoge und Text-to-Speech (TTS) Bestleistungen und erreichte in einigen Szenarien nahezu die Leistung proprietärer Modelle oder übertraf diese sogar. Die entsprechenden Forschungsergebnisse sind: MiMo-Audio-Technischer-Bericht .

Dieses Tutorial verwendet eine einzelne RTX 5090-Grafikkarte als Rechenressource.

2. Effektbeispiele

1. 🔊 Audioverständnis

2. 🎵 Audiogenerierung Text-to-Speech

3. 🎤 Gesprochener Dialog

4. 💬 S2T-Dialog

5. 📝 Text-zu-Text-Dialog

3. Bedienungsschritte

1. Starten Sie den Container

2. Gewichtsparameter initialisieren

Wenn „Bad Gateway“ angezeigt wird, bedeutet dies, dass das Modell initialisiert wird. Da das Modell groß ist, warten Sie bitte etwa 2–3 Minuten und aktualisieren Sie die Seite.

Bei Verwendung des Safari-Browsers wird der Ton möglicherweise nicht direkt abgespielt und muss vor der Wiedergabe heruntergeladen werden.

3. Audioverständnis

4. Audiogenerierung

5. Sprachkonversation

6. Sprach-zu-Text-Konversation

7. Text-zu-Text-Konversation

Zitationsinformationen

@misc{coreteam2025mimoaudio,
      title={MiMo-Audio: Audio Language Models are Few-Shot Learners}, 
      author={LLM-Core-Team Xiaomi},
      year={2025},
      url={https://github.com/XiaomiMiMo/MiMo-Audio}, 
}

Dieses Notebook wurde von Community-Nutzern beigesteuert und dient ausschließlich Bildungs- und Informationszwecken. Bei urheberrechtlichen Bedenken kontaktieren Sie uns bitte unter [email protected] zur umgehenden Prüfung und Entfernung.

Notebook-Übersicht

Stufe

Einsteiger

Thema

LLM-Engineering Generative KI Audio

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

Dieses Notebook ausführen Auf Discord diskutieren

Datum

vor 8 Monaten

1. Einführung in das Tutorial

Dieses Tutorial verwendet eine einzelne RTX 5090-Grafikkarte als Rechenressource.

2. Effektbeispiele

1. 🔊 Audioverständnis

2. 🎵 Audiogenerierung Text-to-Speech

3. 🎤 Gesprochener Dialog

4. 💬 S2T-Dialog

5. 📝 Text-zu-Text-Dialog

3. Bedienungsschritte

1. Starten Sie den Container

2. Gewichtsparameter initialisieren

Wenn „Bad Gateway“ angezeigt wird, bedeutet dies, dass das Modell initialisiert wird. Da das Modell groß ist, warten Sie bitte etwa 2–3 Minuten und aktualisieren Sie die Seite.

Bei Verwendung des Safari-Browsers wird der Ton möglicherweise nicht direkt abgespielt und muss vor der Wiedergabe heruntergeladen werden.

3. Audioverständnis

4. Audiogenerierung

5. Sprachkonversation

6. Sprach-zu-Text-Konversation

7. Text-zu-Text-Konversation

Zitationsinformationen

@misc{coreteam2025mimoaudio,
      title={MiMo-Audio: Audio Language Models are Few-Shot Learners}, 
      author={LLM-Core-Team Xiaomi},
      year={2025},
      url={https://github.com/XiaomiMiMo/MiMo-Audio}, 
}

Notebook-Übersicht

Stufe

Einsteiger

Thema

LLM-Engineering Generative KI Audio

Fish Audio S2-Pro Natürliche Sprachsteuerung Für Emotionale Sprachausgabe

vor 3 Monaten

CPU-Bereitstellung Von Qwen2.5-3B-Instruct-GGUF

vor 4 Monaten

CPU-Bereitstellung DeepSeek-Coder-V2-Lite-Instruct-GGUF

vor 4 Monaten

CPU-Bereitstellung Von Phi-4-mini-instruct-GGUF

vor 4 Monaten

CPU-Bereitstellung Qwen2.5-14B-Instruct-GGUF

vor 4 Monaten

CPU-Bereitstellung Von Llama-3.2-3B-Instruct-GGUF

vor 4 Monaten

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

MiMo-Audio-7B-Instruct: Xiaomis Open-Source-End-to-End-Sprachmodell

1. Einführung in das Tutorial

2. Effektbeispiele

1. 🔊 Audioverständnis

2. 🎵 Audiogenerierung Text-to-Speech

3. 🎤 Gesprochener Dialog

4. 💬 S2T-Dialog

5. 📝 Text-zu-Text-Dialog

3. Bedienungsschritte

1. Starten Sie den Container

2. Gewichtsparameter initialisieren

3. Audioverständnis

4. Audiogenerierung

5. Sprachkonversation

6. Sprach-zu-Text-Konversation

7. Text-zu-Text-Konversation

Zitationsinformationen

Notebook-Übersicht

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

MiMo-Audio-7B-Instruct: Xiaomis Open-Source-End-to-End-Sprachmodell

1. Einführung in das Tutorial

2. Effektbeispiele

1. 🔊 Audioverständnis

2. 🎵 Audiogenerierung Text-to-Speech

3. 🎤 Gesprochener Dialog

4. 💬 S2T-Dialog

5. 📝 Text-zu-Text-Dialog

3. Bedienungsschritte

1. Starten Sie den Container

2. Gewichtsparameter initialisieren

3. Audioverständnis

4. Audiogenerierung

5. Sprachkonversation

6. Sprach-zu-Text-Konversation

7. Text-zu-Text-Konversation

Zitationsinformationen

Notebook-Übersicht

Verwandte Notebooks

Fish Audio S2-Pro Natürliche Sprachsteuerung Für Emotionale Sprachausgabe

CPU-Bereitstellung Von Qwen2.5-3B-Instruct-GGUF

CPU-Bereitstellung DeepSeek-Coder-V2-Lite-Instruct-GGUF

CPU-Bereitstellung Von Phi-4-mini-instruct-GGUF

CPU-Bereitstellung Qwen2.5-14B-Instruct-GGUF

CPU-Bereitstellung Von Llama-3.2-3B-Instruct-GGUF

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

MiMo-Audio-7B-Instruct: Xiaomis Open-Source-End-to-End-Sprachmodell

1. Einführung in das Tutorial

2. Effektbeispiele

1. 🔊 Audioverständnis

2. 🎵 Audiogenerierung Text-to-Speech

3. 🎤 Gesprochener Dialog

4. 💬 S2T-Dialog

5. 📝 Text-zu-Text-Dialog

3. Bedienungsschritte

1. Starten Sie den Container

2. Gewichtsparameter initialisieren

3. Audioverständnis

4. Audiogenerierung

5. Sprachkonversation

6. Sprach-zu-Text-Konversation

7. Text-zu-Text-Konversation

Zitationsinformationen

Notebook-Übersicht

Verwandte Notebooks

Fish Audio S2-Pro Natürliche Sprachsteuerung Für Emotionale Sprachausgabe

CPU-Bereitstellung Von Qwen2.5-3B-Instruct-GGUF

CPU-Bereitstellung DeepSeek-Coder-V2-Lite-Instruct-GGUF

CPU-Bereitstellung Von Phi-4-mini-instruct-GGUF

CPU-Bereitstellung Qwen2.5-14B-Instruct-GGUF

CPU-Bereitstellung Von Llama-3.2-3B-Instruct-GGUF

KI mit KI entwickeln

HyperAI Newsletters

Verwandte Notebooks

Fish Audio S2-Pro Natürliche Sprachsteuerung Für Emotionale Sprachausgabe

CPU-Bereitstellung Von Qwen2.5-3B-Instruct-GGUF