Command Palette
Search for a command to run...
MiMo-Audio-7B-Instruct: Xiaomiのオープンソースエンドツーエンド音声モデル
An error occurred in the Server Components render. The specific message is omitted in production builds to avoid leaking sensitive details. A digest property is included on this error instance which may provide additional details about the nature of the error.
Failed to load notebook details1. チュートリアルの概要

MiMo-Audioは、Xiaomiが2025年9月にリリースしたエンドツーエンドの音声モデルです。事前学習データは1億時間以上に拡張されており、研究者らは様々な音声タスクにおけるその少量学習能力を観察してきました。研究チームはこれらの能力を体系的に評価し、MiMo-Audio-7B-Baseがオープンソースモデルの音声インテリジェンスと音声理解ベンチマークの両方で最先端(SOTA)性能を達成したことを発見しました。標準的な指標に加えて、このモデルは音声変換、スタイル転送、音声編集など、学習データではカバーされていないタスクにも一般化できます。さらに、MiMo-Audio-7B-Baseは強力な音声継続機能を備えており、非常にリアルなトークショー、朗読、ライブストリーミング、討論コンテンツを生成します。学習後の段階では、研究者らは多様な指示微調整コーパスをコンパイルし、音声の理解と生成に思考メカニズムを導入しました。完成したMiMo-Audio-7B-Instructは、音声理解、音声対話、指示TTSのオープンソースベンチマークにおいて最先端の性能を達成し、いくつかのシナリオではクローズドソースモデルに迫る、あるいは上回る性能を示しました。関連する研究成果は以下のとおりです。 MiMoオーディオ技術レポート 。
このチュートリアルでは、コンピューティング リソースとして単一の RTX 5090 グラフィック カードを使用します。
2. 効果例
1. 🔊 音声理解

2. 🎵 音声生成テキスト読み上げ

3. 🎤 会話

4. 💬 S2Tダイアログ

5. 📝 テキスト対テキストの対話

3. 操作手順
1. コンテナを起動します

2. 重みパラメータを初期化する
「Bad Gateway」と表示される場合、モデルが初期化中であることを意味します。モデルが大きいため、2〜3分ほど待ってページを更新してください。
Safari ブラウザを使用する場合、オーディオは直接再生されない場合があり、再生する前にダウンロードする必要があります。

3. 音声理解

4. オーディオ生成

5. 音声会話

6. 音声テキスト会話

7. テキスト間の会話

引用情報
@misc{coreteam2025mimoaudio,
title={MiMo-Audio: Audio Language Models are Few-Shot Learners},
author={LLM-Core-Team Xiaomi},
year={2025},
url={https://github.com/XiaomiMiMo/MiMo-Audio},
}
Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.