HyperAIHyperAI

Command Palette

Search for a command to run...

MiMo-Audio-7B-Instruct: Xiaomiのオープンソースエンドツーエンド音声モデル

An error occurred in the Server Components render. The specific message is omitted in production builds to avoid leaking sensitive details. A digest property is included on this error instance which may provide additional details about the nature of the error.

Failed to load notebook details

1. チュートリアルの概要

建てる

MiMo-Audioは、Xiaomiが2025年9月にリリースしたエンドツーエンドの音声モデルです。事前学習データは1億時間以上に拡張されており、研究者らは様々な音声タスクにおけるその少量学習能力を観察してきました。研究チームはこれらの能力を体系的に評価し、MiMo-Audio-7B-Baseがオープンソースモデルの音声インテリジェンスと音声理解ベンチマークの両方で最先端(SOTA)性能を達成したことを発見しました。標準的な指標に加えて、このモデルは音声変換、スタイル転送、音声編集など、学習データではカバーされていないタスクにも一般化できます。さらに、MiMo-Audio-7B-Baseは強力な音声継続機能を備えており、非常にリアルなトークショー、朗読、ライブストリーミング、討論コンテンツを生成します。学習後の段階では、研究者らは多様な指示微調整コーパスをコンパイルし、音声の理解と生成に思考メカニズムを導入しました。完成したMiMo-Audio-7B-Instructは、音声理解、音声対話、指示TTSのオープンソースベンチマークにおいて最先端の性能を達成し、いくつかのシナリオではクローズドソースモデルに迫る、あるいは上回る性能を示しました。関連する研究成果は以下のとおりです。 MiMoオーディオ技術レポート

このチュートリアルでは、コンピューティング リソースとして単一の RTX 5090 グラフィック カードを使用します。

2. 効果例

1. 🔊 音声理解

2. 🎵 音声生成テキスト読み上げ

3. 🎤 会話

4. 💬 S2Tダイアログ

5. 📝 テキスト対テキストの対話

3. 操作手順

1. コンテナを起動します

2. 重みパラメータを初期化する

「Bad Gateway」と表示される場合、モデルが初期化中であることを意味します。モデルが大きいため、2〜3分ほど待ってページを更新してください。

Safari ブラウザを使用する場合、オーディオは直接再生されない場合があり、再生する前にダウンロードする必要があります。

3. 音声理解

4. オーディオ生成

5. 音声会話

6. 音声テキスト会話

7. テキスト間の会話

引用情報

@misc{coreteam2025mimoaudio,
      title={MiMo-Audio: Audio Language Models are Few-Shot Learners}, 
      author={LLM-Core-Team Xiaomi},
      year={2025},
      url={https://github.com/XiaomiMiMo/MiMo-Audio}, 
}

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています