الملخص

أظهرت التطورات الحديثة في نماذج الاستدلال نجاحًا ملحوظًا في مجالات النص والرؤية من خلال التفكير الممتد على شكل سلسلة من التفكير (Chain-of-Thought). ومع ذلك، يظل هناك ظاهرة غامضة في نماذج اللغة الصوتية: فهي تُظهر أداءً أفضل باستمرار عند استخدام قليل جدًا أو لا استخدام على الإطلاق للاستدلال، مما يثير سؤالًا جوهريًا: هل يمكن للذكاء الصوتي أن يستفيد فعلاً من التفكير المتعمّق؟ نقدّم "Step-Audio-R1"، أول نموذج استدلال صوتي ناجح في فتح القدرات الاستدلالية في مجال الصوت. من خلال الإطار المُقترح بعنوان "استخلاص الاستدلال المُستند إلى الوسائط" (Modality-Grounded Reasoning Distillation - MGRD)، يتعلم نموذج Step-Audio-R1 إنتاج سلاسل استدلال مُتّصلة بالصوت، وتُرتكز فعلاً على السمات الصوتية، بدلًا من ابتكار تفكير مُتفرّع ومتناقض. يُظهر نموذجنا قدرات قوية في الاستدلال الصوتي، متفوّقًا على Gemini 2.5 Pro، ومتقريبًا من أداء النموذج الرائد حاليًا Gemini 3 Pro في مجموعة شاملة من اختبارات الفهم والاستدلال الصوتي التي تشمل الكلام والأصوات البيئية والموسيقى. تُثبت هذه النتائج أن الاستدلال هو قدرة قابلة للانتقال عبر الوسائط عندما تُرتكز بشكل مناسب، مما يحوّل التفكير الممتد من عبء إلى أداة قوية للذكاء الصوتي. وب Erecting أول نموذج استدلال صوتي ناجح، يفتح Step-Audio-R1 آفاقًا جديدة نحو بناء أنظمة استدلال متعددة الوسائط حقيقية، قادرة على التفكير العميق عبر جميع الحواس.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار