HyperAI
il y a 8 jours

Rapport technique Step-Audio 2

Boyong Wu, Chao Yan, Chen Hu, Cheng Yi, Chengli Feng, Fei Tian, Feiyu Shen, Gang Yu, Haoyang Zhang, Jingbei Li, Mingrui Chen, Peng Liu, Wang You, Xiangyu Tony Zhang, Xingyuan Li, Xuerui Yang, Yayue Deng, Yechang Huang, Yuxin Li, Yuxin Zhang, Zhao You, Brian Li, Changyi Wan, Hanpeng Hu, Jiangjie Zhen, Siyu Chen, Song Yuan, Xuelin Zhang, Yimin Jiang, Yu Zhou, Yuxiang Yang, Bingxin Li, Buyun Ma, Changhe Song, Dongqing Pang, Guoqiang Hu, Haiyang Sun, Kang An, Na Wang, Shuli Gao, Wei Ji, Wen Li, Wen Sun, Xuan Wen, Yong Ren, Yuankai Ma, Yufan Lu, Bin Wang, Bo Li, Changxin Miao, Che Liu, Chen Xu, Dapeng Shi, Dingyuan Hu, Donghang Wu, Enle Liu, Guanzhe Huang, Gulin Yan, Han Zhang, Hao Nie, Haonan Jia, Hongyu Zhou, Jianjian Sun, Jiaoren Wu, Jie Wu, Jie Yang, Jin Yang, Junzhe Lin, Kaixiang Li, Lei Yang, Liying Shi, Li Zhou, Longlong Gu, Ming Li, Mingliang Li, Mingxiao Li, Nan Wu, Qi Han, Qinyuan Tan, Shaoliang Pang, Shengjie Fan, Siqi Liu, Tiancheng Cao, Wanying Lu, Wenqing He, Wuxun Xie, Xu Zhao, Xueqi Li, Yanbo Yu, Yang Yang, Yi Liu, Yifan Lu, Yilei Wang, Yuanhao Ding, Yuanwei Liang, Yuanwei Lu, Yuchu Luo, Yuhe Yin, Yumeng Zhan, Yuxiang Zhang, Zidong Yang, Zixin Zhang, Binxing Jiao, Daxin Jiang, Heung-Yeung Shum, Jiansheng Chen, Jing Li, Xiangyu Zhang, Yibo Zhu
Rapport technique Step-Audio 2
Résumé

Ce document présente Step-Audio~2, un modèle de langage à grande échelle multimodal en une seule étape, conçu pour une compréhension audio de niveau industriel et une conversation vocale. En intégrant un encodeur audio latent et un apprentissage par renforcement axé sur le raisonnement (RL), Step-Audio 2 atteint des performances prometteuses en reconnaissance automatique de la parole (ASR) et en compréhension audio. Pour faciliter une conversation vocale véritablement en une seule étape, Step-Audio 2 intègre la génération de tokens audio discrets dans le modèle de langage, ce qui améliore significativement sa réactivité aux informations paralinguistiques telles que les styles de parole et les émotions. Afin d'exploiter efficacement les connaissances textuelles et acoustiques riches présentes dans les données du monde réel, Step-Audio 2 intègre une génération augmentée par la recherche (RAG) et est capable d'appeler des outils externes tels que la recherche sur le web pour atténuer les hallucinations, ou la recherche audio pour changer les timbres. Formé sur des millions d'heures de données vocales et audio, Step-Audio 2 offre une intelligence et une expressivité adaptées à divers scénarios de conversation. Les résultats d'évaluation montrent que Step-Audio 2 atteint des performances de pointe sur divers benchmarks de compréhension audio et de conversation par rapport à d'autres solutions open source et commerciales. Veuillez consulter https://github.com/stepfun-ai/Step-Audio2 pour plus d'informations.