HyperAI超神経

Kimi-Audio: AIに人間を理解させる

1. チュートリアルの概要

GitHubスター

このチュートリアルで使用されるコンピューティング リソースは、単一の A6000 カードです。

Kimi-Audio-7B-Instruct は、2025 年 4 月 28 日に KimiTeam によってリリースされたオープンソースのオーディオ基本モデルです。このモデルは、単一の統合フレームワーク内でさまざまなオーディオ処理タスクを処理できます。関連する論文の結果は以下の通りである。キミオーディオ技術レポート主な機能は次のとおりです。

  • 汎用機能: 自動音声認識 (ASR)、音声質問応答 (AQA)、自動音声字幕 (AAC)、音声感情認識 (SER)、サウンドイベント/シーン分類 (SEC/ASC)、エンドツーエンドの音声ダイアログなど、さまざまなタスクを処理します。
  • 業界をリードするパフォーマンス: 複数のオーディオ ベンチマークで SOTA レベルを達成します。
  • 大規模な事前トレーニング: 1,300 万時間を超えるさまざまなオーディオ データ (音声、音楽、サウンド) とテキスト データの事前トレーニングにより、強力なオーディオ推論と言語理解が可能になります。
  • 革新的なアーキテクチャ: ハイブリッド オーディオ入力 (連続音響ベクトル + 個別のセマンティック タグ) と並列処理機能を備えた LLM コアを使用することで、テキスト タグとオーディオ タグを同時に生成できます。
  • 効率的な推論: 低遅延オーディオ生成のためのストリーム マッチングを備えたチャンク ストリーミング デマルチプレクサー。
  • オープンソース: 事前トレーニングと指示の微調整のためのコードとモデルのチェックポイントをリリースし、コミュニティの研究開発を促進するための包括的な評価ツールキットをリリースします。

2. 操作手順

1. コンテナを起動します

「Bad Gateway」と表示される場合、モデルが初期化中であることを意味します。モデルが大きいため、3〜5分ほど待ってページを更新してください。

2. 使用例

使用ガイドライン

Safari ブラウザを使用する場合、オーディオは直接再生されない場合があり、再生する前にダウンロードする必要があります。

このチュートリアルでは、音声文字変換と音声会話の 2 つのモジュール テストを提供します。

各モジュールの機能は次のとおりです。

音声文字変換

識別結果

音声会話

対話結果

3. 議論

🖌️ 高品質のプロジェクトを見つけたら、メッセージを残してバックグラウンドで推奨してください。さらに、チュートリアル交換グループも設立しました。お友達はコードをスキャンして [SD チュートリアル] に参加し、さまざまな技術的な問題について話し合ったり、アプリケーションの効果を共有したりできます。

引用情報

Githubユーザーに感謝 スーパーヤン  このチュートリアルの展開。このプロジェクトの引用情報は次のとおりです。

@misc{kimi_audio_2024,
      title={Kimi-Audio Technical Report},
      author={Kimi Team},
      year={2024},
      eprint={arXiv:placeholder},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

@misc{kimiteam2025kimiaudiotechnicalreport,
      title={Kimi-Audio Technical Report}, 
      author={KimiTeam and Ding Ding and Zeqian Ju and Yichong Leng and Songxiang Liu and Tong Liu and Zeyu Shang and Kai Shen and Wei Song and Xu Tan and Heyi Tang and Zhengtao Wang and Chu Wei and Yifei Xin and Xinran Xu and Jianwei Yu and Yutao Zhang and Xinyu Zhou and Y. Charles and Jun Chen and Yanru Chen and Yulun Du and Weiran He and Zhenxing Hu and Guokun Lai and Qingcheng Li and Yangyang Liu and Weidong Sun and Jianzhou Wang and Yuzhi Wang and Yuefeng Wu and Yuxin Wu and Dongchao Yang and Hao Yang and Ying Yang and Zhilin Yang and Aoxiong Yin and Ruibin Yuan and Yutong Zhang and Zaida Zhou},
      year={2025},
      eprint={2504.18425},
      archivePrefix={arXiv},
      primaryClass={eess.AS},
      url={https://arxiv.org/abs/2504.18425}, 
}