HyperAI

摘要

我们提出 Step-Audio-EditX，这是首个基于大语言模型（LLM）的开源音频模型，能够实现富有表现力且支持迭代式音频编辑，涵盖情感、语调风格及副语言特征，并具备强大的零样本文本到语音（TTS）能力。其核心创新在于仅依赖大间隔（large-margin）合成数据，从而无需使用基于嵌入的先验信息或辅助模块。这种大间隔学习方法不仅实现了对语音的迭代式控制，还显著提升了语音表现力，标志着从传统上强调表征层面解耦的范式向全新方向的根本性转变。评估结果表明，Step-Audio-EditX 在情感编辑及其他细粒度控制任务中，均优于 MiniMax-2.6-hd 与 Doubao-Seed-TTS-2.0。

摘要

Chao Yan Boyong Wu Peng Yang Pengfei Tan Guoqiang Hu Yuxin Zhang Xiangyu Zhang Fei Tian Xuerui Yang

摘要

用 AI 构建 AI

HyperAI Newsletters

Chao Yan Boyong Wu Peng Yang Pengfei Tan Guoqiang Hu Yuxin Zhang Xiangyu Zhang Fei Tian Xuerui Yang

摘要

用 AI 构建 AI

HyperAI Newsletters

Chao Yan Boyong Wu Peng Yang Pengfei Tan Guoqiang Hu Yuxin Zhang Xiangyu Zhang Fei Tian Xuerui Yang

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

Step-Audio-EditX 技术报告

Chao Yan Boyong Wu Peng Yang Pengfei Tan Guoqiang Hu Yuxin Zhang Xiangyu Zhang Fei Tian Xuerui Yang3 more

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

Step-Audio-EditX 技术报告

Chao Yan Boyong Wu Peng Yang Pengfei Tan Guoqiang Hu Yuxin Zhang Xiangyu Zhang Fei Tian Xuerui Yang3 more

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

Step-Audio-EditX 技术报告

Chao Yan Boyong Wu Peng Yang Pengfei Tan Guoqiang Hu Yuxin Zhang Xiangyu Zhang Fei Tian Xuerui Yang3 more

摘要

用 AI 构建 AI

HyperAI Newsletters

Chao Yan Boyong Wu Peng Yang Pengfei Tan Guoqiang Hu Yuxin Zhang Xiangyu Zhang Fei Tian Xuerui Yang

Chao Yan Boyong Wu Peng Yang Pengfei Tan Guoqiang Hu Yuxin Zhang Xiangyu Zhang Fei Tian Xuerui Yang

Chao Yan Boyong Wu Peng Yang Pengfei Tan Guoqiang Hu Yuxin Zhang Xiangyu Zhang Fei Tian Xuerui Yang