HyperAI
منذ 8 أيام

تقرير تقني Step-Audio 2

Boyong Wu, Chao Yan, Chen Hu, Cheng Yi, Chengli Feng, Fei Tian, Feiyu Shen, Gang Yu, Haoyang Zhang, Jingbei Li, Mingrui Chen, Peng Liu, Wang You, Xiangyu Tony Zhang, Xingyuan Li, Xuerui Yang, Yayue Deng, Yechang Huang, Yuxin Li, Yuxin Zhang, Zhao You, Brian Li, Changyi Wan, Hanpeng Hu, Jiangjie Zhen, Siyu Chen, Song Yuan, Xuelin Zhang, Yimin Jiang, Yu Zhou, Yuxiang Yang, Bingxin Li, Buyun Ma, Changhe Song, Dongqing Pang, Guoqiang Hu, Haiyang Sun, Kang An, Na Wang, Shuli Gao, Wei Ji, Wen Li, Wen Sun, Xuan Wen, Yong Ren, Yuankai Ma, Yufan Lu, Bin Wang, Bo Li, Changxin Miao, Che Liu, Chen Xu, Dapeng Shi, Dingyuan Hu, Donghang Wu, Enle Liu, Guanzhe Huang, Gulin Yan, Han Zhang, Hao Nie, Haonan Jia, Hongyu Zhou, Jianjian Sun, Jiaoren Wu, Jie Wu, Jie Yang, Jin Yang, Junzhe Lin, Kaixiang Li, Lei Yang, Liying Shi, Li Zhou, Longlong Gu, Ming Li, Mingliang Li, Mingxiao Li, Nan Wu, Qi Han, Qinyuan Tan, Shaoliang Pang, Shengjie Fan, Siqi Liu, Tiancheng Cao, Wanying Lu, Wenqing He, Wuxun Xie, Xu Zhao, Xueqi Li, Yanbo Yu, Yang Yang, Yi Liu, Yifan Lu, Yilei Wang, Yuanhao Ding, Yuanwei Liang, Yuanwei Lu, Yuchu Luo, Yuhe Yin, Yumeng Zhan, Yuxiang Zhang, Zidong Yang, Zixin Zhang, Binxing Jiao, Daxin Jiang, Heung-Yeung Shum, Jiansheng Chen, Jing Li, Xiangyu Zhang, Yibo Zhu
تقرير تقني Step-Audio 2
الملخص

يقدم هذا المقال نموذج Step-Audio~2، وهو نموذج لغوي كبير متعدد الوسائط يعمل بشكل متكامل (end-to-end)، مصمم لفهم الصوت والمحادثات الصوتية بمستوى قوي للصناعة. من خلال دمج مُشفِّر الصوت المخفي (latent audio encoder) وتعلم التحسين (reinforcement learning) المركّز على التفكير (reasoning-centric RL)، يحقق Step-Audio 2 أداءً واعدًا في التعرف على الكلام التلقائي (ASR) وفهم الصوت. ولتسهيل المحادثات الصوتية المتكاملة بشكل حقيقي، يحتوي Step-Audio 2 على إنشاء رموز الصوت المنفصلة (discrete audio tokens) ضمن نموذج اللغة، مما يعزز بشكل كبير استجابته للمعلومات الباراللغوية مثل أنماط النطق والمشاعر. وللاستفادة بشكل فعّال من المعرفة النصية والصوتية الغنية الموجودة في البيانات الواقعية، يدمج Step-Audio 2 إنشاء المحتوى المعزّز بالاسترجاع (retrieval-augmented generation - RAG)، ويستطيع استدعاء أدوات خارجية مثل البحث في الويب لتجنب التصويرات المضلّلة (hallucination) والبحث في الصوت لتبديل الأصوات (timbres). تم تدريب Step-Audio 2 على ملايين الساعات من بيانات الصوت والكلام، ويوفر ذكاءً وتعبيرًا في سيناريوهات محادثات متنوعة. أظهرت نتائج التقييم أن Step-Audio 2 يحقق أداءً متقدمًا في مجالات فهم الصوت والمحادثات مقارنةً بحلول أخرى مفتوحة المصدر وتجارية. لمزيد من المعلومات، يرجى زيارة الرابط التالي: https://github.com/stepfun-ai/Step-Audio2.