HyperAI超神经

Kimi-Audio:让 AI 听懂人类

一、教程简介

GitHub Stars

该教程算力资源采用单卡 A6000 。

Kimi-Audio-7B-Instruct 是由 KimiTeam 于 2025 年 4 月 28 日发布的开源音频基础模型。模型能够在单个统一框架内处理各种音频处理任务。相关论文成果为「Kimi-Audio Technical Report」。 主要功能包括:

  • 通用功能:处理各种任务,如自动语音识别(ASR)、音频问答(AQA)、自动音频字幕(AAC)、语音情感识别(SER)、声音事件/场景分类(SEC/ASC)和端到端语音对话。
  • 业界领先性能:在多项音频基准测试中达到 SOTA 水平。
  • 大规模预训练: 对超过 1300 万小时的各种音频数据(语音、音乐、声音)和文本数据进行预训练,从而实现强大的音频推理和语言理解。
  • 创新架构:采用混合音频输入(连续声学向量 + 离散语义标记)与具备并行处理能力的 LLM 核心,可同步生成文本和音频标记。
  • 高效推理: 具有基于流匹配的分块流式解分器,用于低延迟音频生成。
  • 开源: 发布用于预训练和指令微调的代码和模型检查点,并发布全面的评估工具包以促进社区研究和开发。

二、运行步骤

1. 启动容器

若显示「Bad Gateway」,这表示模型正在初始化,由于模型较大,请等待约 3-5 分钟后刷新页面。

2. 使用示例

使用指南

使用 Safari 浏览器时,音频可能无法直接播放,需要下载后进行播放。

本教程提供两种模块测试:Voice transcription 、 Voice conversation 。

各模块功能如下:

Voice transcription

识别结果

Voice conversation

对话结果

三、交流探讨

🖌️ 如果大家看到优质项目,欢迎后台留言推荐!另外,我们还建立了教程交流群,欢迎小伙伴们扫码备注【SD 教程】入群探讨各类技术问题、分享应用效果↓

引用信息

感谢 Github 用户 SuperYang  对本教程的部署。本项目引用信息如下:

@misc{kimi_audio_2024,
      title={Kimi-Audio Technical Report},
      author={Kimi Team},
      year={2024},
      eprint={arXiv:placeholder},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

@misc{kimiteam2025kimiaudiotechnicalreport,
      title={Kimi-Audio Technical Report}, 
      author={KimiTeam and Ding Ding and Zeqian Ju and Yichong Leng and Songxiang Liu and Tong Liu and Zeyu Shang and Kai Shen and Wei Song and Xu Tan and Heyi Tang and Zhengtao Wang and Chu Wei and Yifei Xin and Xinran Xu and Jianwei Yu and Yutao Zhang and Xinyu Zhou and Y. Charles and Jun Chen and Yanru Chen and Yulun Du and Weiran He and Zhenxing Hu and Guokun Lai and Qingcheng Li and Yangyang Liu and Weidong Sun and Jianzhou Wang and Yuzhi Wang and Yuefeng Wu and Yuxin Wu and Dongchao Yang and Hao Yang and Ying Yang and Zhilin Yang and Aoxiong Yin and Ruibin Yuan and Yutong Zhang and Zaida Zhou},
      year={2025},
      eprint={2504.18425},
      archivePrefix={arXiv},
      primaryClass={eess.AS},
      url={https://arxiv.org/abs/2504.18425}, 
}