8일 전

Step-Audio 2 기술 보고서

Boyong Wu, Chao Yan, Chen Hu, Cheng Yi, Chengli Feng, Fei Tian, Feiyu Shen, Gang Yu, Haoyang Zhang, Jingbei Li, Mingrui Chen, Peng Liu, Wang You, Xiangyu Tony Zhang, Xingyuan Li, Xuerui Yang, Yayue Deng, Yechang Huang, Yuxin Li, Yuxin Zhang, Zhao You, Brian Li, Changyi Wan, Hanpeng Hu, Jiangjie Zhen, Siyu Chen, Song Yuan, Xuelin Zhang, Yimin Jiang, Yu Zhou, Yuxiang Yang, Bingxin Li, Buyun Ma, Changhe Song, Dongqing Pang, Guoqiang Hu, Haiyang Sun, Kang An, Na Wang, Shuli Gao, Wei Ji, Wen Li, Wen Sun, Xuan Wen, Yong Ren, Yuankai Ma, Yufan Lu, Bin Wang, Bo Li, Changxin Miao, Che Liu, Chen Xu, Dapeng Shi, Dingyuan Hu, Donghang Wu, Enle Liu, Guanzhe Huang, Gulin Yan, Han Zhang, Hao Nie, Haonan Jia, Hongyu Zhou, Jianjian Sun, Jiaoren Wu, Jie Wu, Jie Yang, Jin Yang, Junzhe Lin, Kaixiang Li, Lei Yang, Liying Shi, Li Zhou, Longlong Gu, Ming Li, Mingliang Li, Mingxiao Li, Nan Wu, Qi Han, Qinyuan Tan, Shaoliang Pang, Shengjie Fan, Siqi Liu, Tiancheng Cao, Wanying Lu, Wenqing He, Wuxun Xie, Xu Zhao, Xueqi Li, Yanbo Yu, Yang Yang, Yi Liu, Yifan Lu, Yilei Wang, Yuanhao Ding, Yuanwei Liang, Yuanwei Lu, Yuchu Luo, Yuhe Yin, Yumeng Zhan, Yuxiang Zhang, Zidong Yang, Zixin Zhang, Binxing Jiao, Daxin Jiang, Heung-Yeung Shum, Jiansheng Chen, Jing Li, Xiangyu Zhang, Yibo Zhu

논문 세부 정보 보기 View Code

초록

이 논문은 산업 수준의 음성 이해와 대화를 위한 엔드투엔드 다모달 대규모 언어 모델인 Step-Audio~2를 제시한다. 잠재적 음성 인코더와 중심적인 추론을 기반으로 한 강화 학습(Reinforcement Learning, RL)을 통합함으로써, Step-Audio 2는 자동 음성 인식(Automatic Speech Recognition, ASR)과 음성 이해에서 높은 성능을 달성하였다. 진정한 엔드투엔드 음성 대화를 가능하게 하기 위해 Step-Audio 2는 언어 모델링에 이산적 음성 토큰 생성을 포함하고 있으며, 이는 말하는 스타일과 감정과 같은 파라라인구이스틱 정보에 대한 반응성을 크게 향상시킨다. 현실 세계의 풍부한 텍스트 및 음향 지식을 효과적으로 활용하기 위해 Step-Audio 2는 검색 증강 생성(Retrieval-Augmented Generation, RAG)을 통합하고, 환상(Hallucination)을 완화하기 위해 웹 검색과 같은 외부 도구를 호출하거나, 음색을 전환하기 위한 음성 검색 기능을 지원한다. 수백만 시간에 달하는 음성 및 음향 데이터로 훈련된 Step-Audio 2는 다양한 대화 시나리오에서 지능과 표현력을 제공한다. 평가 결과는 다른 오픈소스 및 상용 솔루션과 비교해 Step-Audio 2가 다양한 음성 이해 및 대화 기준에서 최첨단 성능을 달성함을 보여준다. 자세한 정보는 https://github.com/stepfun-ai/Step-Audio2를 참조하시기 바랍니다.