vor 8 Tagen

Step-Audio 2 Technischer Bericht

Boyong Wu, Chao Yan, Chen Hu, Cheng Yi, Chengli Feng, Fei Tian, Feiyu Shen, Gang Yu, Haoyang Zhang, Jingbei Li, Mingrui Chen, Peng Liu, Wang You, Xiangyu Tony Zhang, Xingyuan Li, Xuerui Yang, Yayue Deng, Yechang Huang, Yuxin Li, Yuxin Zhang, Zhao You, Brian Li, Changyi Wan, Hanpeng Hu, Jiangjie Zhen, Siyu Chen, Song Yuan, Xuelin Zhang, Yimin Jiang, Yu Zhou, Yuxiang Yang, Bingxin Li, Buyun Ma, Changhe Song, Dongqing Pang, Guoqiang Hu, Haiyang Sun, Kang An, Na Wang, Shuli Gao, Wei Ji, Wen Li, Wen Sun, Xuan Wen, Yong Ren, Yuankai Ma, Yufan Lu, Bin Wang, Bo Li, Changxin Miao, Che Liu, Chen Xu, Dapeng Shi, Dingyuan Hu, Donghang Wu, Enle Liu, Guanzhe Huang, Gulin Yan, Han Zhang, Hao Nie, Haonan Jia, Hongyu Zhou, Jianjian Sun, Jiaoren Wu, Jie Wu, Jie Yang, Jin Yang, Junzhe Lin, Kaixiang Li, Lei Yang, Liying Shi, Li Zhou, Longlong Gu, Ming Li, Mingliang Li, Mingxiao Li, Nan Wu, Qi Han, Qinyuan Tan, Shaoliang Pang, Shengjie Fan, Siqi Liu, Tiancheng Cao, Wanying Lu, Wenqing He, Wuxun Xie, Xu Zhao, Xueqi Li, Yanbo Yu, Yang Yang, Yi Liu, Yifan Lu, Yilei Wang, Yuanhao Ding, Yuanwei Liang, Yuanwei Lu, Yuchu Luo, Yuhe Yin, Yumeng Zhan, Yuxiang Zhang, Zidong Yang, Zixin Zhang, Binxing Jiao, Daxin Jiang, Heung-Yeung Shum, Jiansheng Chen, Jing Li, Xiangyu Zhang, Yibo Zhu

Details der Forschungsarbeit anzeigen View Code

Abstract

Dieser Artikel stellt Step-Audio~2 vor, ein end-to-end-Multimodal-Modell für große Sprachmodelle, das für industriestarkes Audio-Verständnis und Sprachkommunikation entwickelt wurde. Durch die Integration eines latenten Audio-Encoders und einer auf Schlussfolgerung ausgerichteten Verstärkungslernmethode (reinforcement learning, RL) erzielt Step-Audio 2 vielversprechende Leistungsergebnisse in der automatischen Spracherkennung (automatic speech recognition, ASR) und im Audio-Verständnis. Um echte end-to-end-Sprachkommunikation zu ermöglichen, integriert Step-Audio 2 die Generierung diskreter Audio-Token in das Sprachmodellieren, wodurch seine Reaktionsfähigkeit auf paralinguistische Informationen wie Sprechweise und Emotionen deutlich gesteigert wird. Um die reiche textuelle und akustische Wissensbasis in realen Daten effektiv zu nutzen, kombiniert Step-Audio 2 Retrieval-Augmented Generation (RAG) und ist in der Lage, externe Tools wie Web-Suche einzusetzen, um Halluzinationen zu reduzieren und Audio-Suche, um Klangfarben zu wechseln. Step-Audio 2 wurde auf Millionen von Stunden Sprach- und Audio-Daten trainiert und bietet Intelligenz und Ausdruckskraft in verschiedenen Gesprächsszenarien. Die Evaluierungsergebnisse zeigen, dass Step-Audio 2 gegenüber anderen Open-Source- und kommerziellen Lösungen eine führende Leistung auf verschiedenen Audio-Verständnis- und Conversational-Benchmarks erreicht. Weitere Informationen finden Sie unter https://github.com/stepfun-ai/Step-Audio2.