HyperAIHyperAI

Command Palette

Search for a command to run...

تقرير تقني Step-Audio 2

الملخص

يقدم هذا المقال نموذج Step-Audio~2، وهو نموذج لغوي كبير متعدد الوسائط يعمل بشكل متكامل (end-to-end)، مصمم لفهم الصوت والمحادثات الصوتية بمستوى قوي للصناعة. من خلال دمج مُشفِّر الصوت المخفي (latent audio encoder) وتعلم التحسين (reinforcement learning) المركّز على التفكير (reasoning-centric RL)، يحقق Step-Audio 2 أداءً واعدًا في التعرف على الكلام التلقائي (ASR) وفهم الصوت. ولتسهيل المحادثات الصوتية المتكاملة بشكل حقيقي، يحتوي Step-Audio 2 على إنشاء رموز الصوت المنفصلة (discrete audio tokens) ضمن نموذج اللغة، مما يعزز بشكل كبير استجابته للمعلومات الباراللغوية مثل أنماط النطق والمشاعر. وللاستفادة بشكل فعّال من المعرفة النصية والصوتية الغنية الموجودة في البيانات الواقعية، يدمج Step-Audio 2 إنشاء المحتوى المعزّز بالاسترجاع (retrieval-augmented generation - RAG)، ويستطيع استدعاء أدوات خارجية مثل البحث في الويب لتجنب التصويرات المضلّلة (hallucination) والبحث في الصوت لتبديل الأصوات (timbres). تم تدريب Step-Audio 2 على ملايين الساعات من بيانات الصوت والكلام، ويوفر ذكاءً وتعبيرًا في سيناريوهات محادثات متنوعة. أظهرت نتائج التقييم أن Step-Audio 2 يحقق أداءً متقدمًا في مجالات فهم الصوت والمحادثات مقارنةً بحلول أخرى مفتوحة المصدر وتجارية. لمزيد من المعلومات، يرجى زيارة الرابط التالي: https://github.com/stepfun-ai/Step-Audio2.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp