Command Palette

Search for a command to run...

3 个月前

Step-Audio 2 技术报告

Step-Audio 2 技术报告

摘要

本文介绍了 Step-Audio~2,这是一个面向工业级音频理解和语音对话的端到端多模态大语言模型。通过融合潜在音频编码器和以推理为核心的强化学习(Reinforcement Learning, RL),Step-Audio 2 在自动语音识别(Automatic Speech Recognition, ASR)和音频理解任务中表现出色。为了实现真正的端到端语音对话,Step-Audio 2 将离散音频标记的生成整合到语言建模中,显著提升了其对副语言信息(如说话风格和情感)的响应能力。为有效利用真实数据中丰富的文本和声学知识,Step-Audio 2 集成了检索增强生成(Retrieval-Augmented Generation, RAG)技术,并能够调用外部工具,如网络搜索,以减少幻觉现象,以及进行音频搜索以切换音色。Step-Audio 2 在数百万小时的语音和音频数据上进行训练,能够在多种对话场景中展现出智能与表现力。评估结果表明,与其它开源和商业解决方案相比,Step-Audio 2 在多个音频理解和对话基准测试中均达到了最先进水平。更多信息请访问 https://github.com/stepfun-ai/Step-Audio2。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供