تقرير تقني Step-Audio 2

يقدم هذا المقال نموذج Step-Audio~2، وهو نموذج لغوي كبير متعدد الوسائط يعمل بشكل متكامل (end-to-end)، مصمم لفهم الصوت والمحادثات الصوتية بمستوى قوي للصناعة. من خلال دمج مُشفِّر الصوت المخفي (latent audio encoder) وتعلم التحسين (reinforcement learning) المركّز على التفكير (reasoning-centric RL)، يحقق Step-Audio 2 أداءً واعدًا في التعرف على الكلام التلقائي (ASR) وفهم الصوت. ولتسهيل المحادثات الصوتية المتكاملة بشكل حقيقي، يحتوي Step-Audio 2 على إنشاء رموز الصوت المنفصلة (discrete audio tokens) ضمن نموذج اللغة، مما يعزز بشكل كبير استجابته للمعلومات الباراللغوية مثل أنماط النطق والمشاعر. وللاستفادة بشكل فعّال من المعرفة النصية والصوتية الغنية الموجودة في البيانات الواقعية، يدمج Step-Audio 2 إنشاء المحتوى المعزّز بالاسترجاع (retrieval-augmented generation - RAG)، ويستطيع استدعاء أدوات خارجية مثل البحث في الويب لتجنب التصويرات المضلّلة (hallucination) والبحث في الصوت لتبديل الأصوات (timbres). تم تدريب Step-Audio 2 على ملايين الساعات من بيانات الصوت والكلام، ويوفر ذكاءً وتعبيرًا في سيناريوهات محادثات متنوعة. أظهرت نتائج التقييم أن Step-Audio 2 يحقق أداءً متقدمًا في مجالات فهم الصوت والمحادثات مقارنةً بحلول أخرى مفتوحة المصدر وتجارية. لمزيد من المعلومات، يرجى زيارة الرابط التالي: https://github.com/stepfun-ai/Step-Audio2.