日付

4ヶ月前

サイズ

1.82 GB

タグ

音声分類

Text-to-Audio

ライセンス

Apache 2.0

GitHub

XiaomiMiMo/MiMo-Audio

論文URL

github.com

1. チュートリアルの概要

MiMo-Audioは、Xiaomiが2025年9月にリリースしたエンドツーエンドの音声モデルです。事前学習データは1億時間以上に拡張されており、研究者らは様々な音声タスクにおけるその少量学習能力を観察してきました。研究チームはこれらの能力を体系的に評価し、MiMo-Audio-7B-Baseがオープンソースモデルの音声インテリジェンスと音声理解ベンチマークの両方で最先端（SOTA）性能を達成したことを発見しました。標準的な指標に加えて、このモデルは音声変換、スタイル転送、音声編集など、学習データではカバーされていないタスクにも一般化できます。さらに、MiMo-Audio-7B-Baseは強力な音声継続機能を備えており、非常にリアルなトークショー、朗読、ライブストリーミング、討論コンテンツを生成します。学習後の段階では、研究者らは多様な指示微調整コーパスをコンパイルし、音声の理解と生成に思考メカニズムを導入しました。完成したMiMo-Audio-7B-Instructは、音声理解、音声対話、指示TTSのオープンソースベンチマークにおいて最先端の性能を達成し、いくつかのシナリオではクローズドソースモデルに迫る、あるいは上回る性能を示しました。関連する研究成果は以下のとおりです。 MiMoオーディオ技術レポート。

このチュートリアルでは、コンピューティングリソースとして単一の RTX 5090 グラフィックカードを使用します。

2. 効果例

1. 🔊 音声理解

2. 🎵 音声生成テキスト読み上げ

3. 🎤 会話

4. 💬 S2Tダイアログ

5. 📝 テキスト対テキストの対話

3. 操作手順

1. コンテナを起動します

2. 重みパラメータを初期化する

「Bad Gateway」と表示される場合、モデルが初期化中であることを意味します。モデルが大きいため、2〜3分ほど待ってページを更新してください。

Safari ブラウザを使用する場合、オーディオは直接再生されない場合があり、再生する前にダウンロードする必要があります。

3. 音声理解

4. オーディオ生成

5. 音声会話

6. 音声テキスト会話

7. テキスト間の会話

引用情報

@misc{coreteam2025mimoaudio,
      title={MiMo-Audio: Audio Language Models are Few-Shot Learners}, 
      author={LLM-Core-Team Xiaomi},
      year={2025},
      url={https://github.com/XiaomiMiMo/MiMo-Audio}, 
}

このノートブックはコミュニティユーザーによって提供されたものであり、教育および情報提供のみを目的としています。コンテンツに著作権侵害が含まれる場合は、[email protected]までご連絡ください。速やかに確認し、削除いたします。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

HyperAI

このNotebookを実行

日付