Command Palette

Search for a command to run...

MiMo-Audio-7B-Instruct: Xiaomiのオープンソースエンドツーエンド音声モデル

1. チュートリアルの概要

建てる

MiMo-Audioは、Xiaomiが2025年9月にリリースしたエンドツーエンドの音声モデルです。事前学習データは1億時間以上に拡張されており、研究者らは、様々な音声タスクにおいてMiMo-Audioが少量学習能力を発揮することを観察しています。研究チームはこれらの機能を体系的に評価し、MiMo-Audio-7B-Baseが音声知能と音声理解のオープンソースモデルベンチマークにおいて最先端(SOTA)の結果を達成したことを発見しました。標準的な指標を超えて、このモデルは音声変換、スタイル転送、音声編集など、学習データではカバーされていないタスクにも一般化します。さらに、MiMo-Audio-7B-Baseは強力な音声継続機能を備えており、非常にリアルなトークショー、朗読、生放送、討論などを生成することができます。学習後の段階では、研究者らは多様な指示微調整コーパスをコンパイルし、音声の理解と生成に思考メカニズムを導入しました。結果として得られたMiMo-Audio-7B-Instructは、音声理解ベンチマーク、音声対話ベンチマーク、指示ベース音声合成(instruct-TTS)において、オープンソース分野における最先端の結果を達成し、いくつかのシナリオではクローズドソースモデルに迫る、あるいは凌駕する結果となりました。関連する論文結果は以下の通りです。MiMoオーディオ技術レポート”。

このチュートリアルでは、コンピューティング リソースとして単一の RTX 5090 グラフィック カードを使用します。

2. 効果例

1. 🔊 音声理解

2. 🎵 音声生成テキスト読み上げ

3. 🎤 会話

4. 💬 S2Tダイアログ

5. 📝 テキスト対テキストの対話

3. 操作手順

1. コンテナを起動します

2. 重みパラメータを初期化する

「Bad Gateway」と表示される場合、モデルが初期化中であることを意味します。モデルが大きいため、2〜3分ほど待ってページを更新してください。

Safari ブラウザを使用する場合、オーディオは直接再生されない場合があり、再生する前にダウンロードする必要があります。

3. 音声理解

4. オーディオ生成

5. 音声会話

6. 音声テキスト会話

7. テキスト間の会話

引用情報

@misc{coreteam2025mimoaudio,
      title={MiMo-Audio: Audio Language Models are Few-Shot Learners}, 
      author={LLM-Core-Team Xiaomi},
      year={2025},
      url={https://github.com/XiaomiMiMo/MiMo-Audio}, 
}

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています