Dieses Notebook ausführen Auf Discord diskutieren

Datum

vor 4 Monaten

Größe

1.82 GB

1. Einführung in das Tutorial

MiMo-Audio ist ein von Xiaomi im September 2025 veröffentlichtes, durchgängiges Sprachmodell. Die Trainingsdaten umfassen über 100 Millionen Stunden, und Forscher haben die Fähigkeiten des Modells im Few-Shot-Learning bei verschiedenen Audioaufgaben untersucht. Das Team evaluierte diese Fähigkeiten systematisch und stellte fest, dass MiMo-Audio-7B-Base in Benchmarks für Open-Source-Sprachintelligenz und Audioverständnis Bestleistungen erzielte. Neben Standardmetriken kann das Modell auch Aufgaben bearbeiten, die nicht in den Trainingsdaten enthalten sind, wie z. B. Sprachkonvertierung, Stiltransfer und Sprachbearbeitung. Darüber hinaus verfügt MiMo-Audio-7B-Base über leistungsstarke Funktionen zur Sprachfortsetzung und generiert äußerst realistische Talkshow-, Rezitations-, Live-Streaming- und Debatteninhalte. In der Nachbereitungsphase erstellten die Forscher diverse Korpora zur Feinabstimmung der Anweisungen und integrierten Denkprozesse in das Audioverständnis und die Audiogenerierung. Das daraus resultierende MiMo-Audio-7B-Instruct erzielte in Open-Source-Benchmarks für Audioverstehen, gesprochene Dialoge und Text-to-Speech (TTS) Bestleistungen und erreichte in einigen Szenarien nahezu die Leistung proprietärer Modelle oder übertraf diese sogar. Die entsprechenden Forschungsergebnisse sind: MiMo-Audio-Technischer-Bericht .

Dieses Tutorial verwendet eine einzelne RTX 5090-Grafikkarte als Rechenressource.

2. Effektbeispiele

1. 🔊 Audioverständnis

2. 🎵 Audiogenerierung Text-to-Speech

3. 🎤 Gesprochener Dialog

4. 💬 S2T-Dialog

5. 📝 Text-zu-Text-Dialog

3. Bedienungsschritte

1. Starten Sie den Container

2. Gewichtsparameter initialisieren

Wenn „Bad Gateway“ angezeigt wird, bedeutet dies, dass das Modell initialisiert wird. Da das Modell groß ist, warten Sie bitte etwa 2–3 Minuten und aktualisieren Sie die Seite.

Bei Verwendung des Safari-Browsers wird der Ton möglicherweise nicht direkt abgespielt und muss vor der Wiedergabe heruntergeladen werden.

3. Audioverständnis

4. Audiogenerierung

5. Sprachkonversation

6. Sprach-zu-Text-Konversation

7. Text-zu-Text-Konversation

Zitationsinformationen

@misc{coreteam2025mimoaudio,
      title={MiMo-Audio: Audio Language Models are Few-Shot Learners}, 
      author={LLM-Core-Team Xiaomi},
      year={2025},
      url={https://github.com/XiaomiMiMo/MiMo-Audio}, 
}

Dieses Notebook wurde von Community-Nutzern beigesteuert und dient ausschließlich Bildungs- und Informationszwecken. Bei urheberrechtlichen Bedenken kontaktieren Sie uns bitte unter [email protected] zur umgehenden Prüfung und Entfernung.

Verwandt Notebooks

Supertonic: Ein Auf ONNX Basierendes Hochgeschwindigkeits-TTS-Sprachsynthesemodell.

vor 2 Monaten

SoulX-Podcast: Generierung Von Langtexten in Podcast-Qualität Für Verschiedene Dialekte.

vor 2 Monaten

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp