HyperAIHyperAI

Command Palette

Search for a command to run...

Kimi-Audio: AIに人間を理解させる

Date

8ヶ月前

Size

992.96 MB

License

Other

Paper URL

2504.18425

1. チュートリアルの概要

GitHubスター

このチュートリアルで使用されるコンピューティング リソースは、単一の A6000 カードです。

Kimi-Audio-7B-Instructは、KimiTeamが2025年4月28日にリリースしたオープンソースのオーディオ基盤モデルです。このモデルは、単一の統合フレームワーク内で様々なオーディオ処理タスクを処理できます。関連研究論文には以下が含まれます… キミオーディオ技術レポート 主な機能は次のとおりです。

  • 汎用機能: 自動音声認識 (ASR)、音声質問応答 (AQA)、自動音声字幕 (AAC)、音声感情認識 (SER)、サウンドイベント/シーン分類 (SEC/ASC)、エンドツーエンドの音声ダイアログなど、さまざまなタスクを処理します。
  • 業界をリードするパフォーマンス: 複数のオーディオ ベンチマークで SOTA レベルを達成します。
  • 大規模な事前トレーニング: 1,300 万時間を超えるさまざまなオーディオ データ (音声、音楽、サウンド) とテキスト データの事前トレーニングにより、強力なオーディオ推論と言語理解が可能になります。
  • 革新的なアーキテクチャ: ハイブリッド オーディオ入力 (連続音響ベクトル + 個別のセマンティック タグ) と並列処理機能を備えた LLM コアを使用することで、テキスト タグとオーディオ タグを同時に生成できます。
  • 効率的な推論: 低遅延オーディオ生成のためのストリーム マッチングを備えたチャンク ストリーミング デマルチプレクサー。
  • オープンソース: 事前トレーニングと指示の微調整のためのコードとモデルのチェックポイントをリリースし、コミュニティの研究開発を促進するための包括的な評価ツールキットをリリースします。

2. 操作手順

1. コンテナを起動します

「Bad Gateway」と表示される場合、モデルが初期化中であることを意味します。モデルが大きいため、3〜5分ほど待ってページを更新してください。

2. 使用例

使用ガイドライン

Safari ブラウザを使用する場合、オーディオは直接再生されない場合があり、再生する前にダウンロードする必要があります。

このチュートリアルでは、音声文字変換と音声会話の 2 つのモジュール テストを提供します。

各モジュールの機能は次のとおりです。

音声文字変換

識別結果

音声会話

対話結果

3. 議論

🖌️ 高品質のプロジェクトを見つけたら、メッセージを残してバックグラウンドで推奨してください。さらに、チュートリアル交換グループも設立しました。お友達はコードをスキャンして [SD チュートリアル] に参加し、さまざまな技術的な問題について話し合ったり、アプリケーションの効果を共有したりできます。

引用情報

Githubユーザーに感謝 スーパーヤン  このチュートリアルの展開。このプロジェクトの引用情報は次のとおりです。

@misc{kimi_audio_2024,
      title={Kimi-Audio Technical Report},
      author={Kimi Team},
      year={2024},
      eprint={arXiv:placeholder},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

@misc{kimiteam2025kimiaudiotechnicalreport,
      title={Kimi-Audio Technical Report}, 
      author={KimiTeam and Ding Ding and Zeqian Ju and Yichong Leng and Songxiang Liu and Tong Liu and Zeyu Shang and Kai Shen and Wei Song and Xu Tan and Heyi Tang and Zhengtao Wang and Chu Wei and Yifei Xin and Xinran Xu and Jianwei Yu and Yutao Zhang and Xinyu Zhou and Y. Charles and Jun Chen and Yanru Chen and Yulun Du and Weiran He and Zhenxing Hu and Guokun Lai and Qingcheng Li and Yangyang Liu and Weidong Sun and Jianzhou Wang and Yuzhi Wang and Yuefeng Wu and Yuxin Wu and Dongchao Yang and Hao Yang and Ying Yang and Zhilin Yang and Aoxiong Yin and Ruibin Yuan and Yutong Zhang and Zaida Zhou},
      year={2025},
      eprint={2504.18425},
      archivePrefix={arXiv},
      primaryClass={eess.AS},
      url={https://arxiv.org/abs/2504.18425}, 
}

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています