
الملخص
أظهرت التطورات الحديثة في نماذج الاستدلال نجاحًا ملحوظًا في مجالات النص والرؤية من خلال التفكير الممتد على شكل سلسلة من التفكير (Chain-of-Thought). ومع ذلك، يظل هناك ظاهرة غامضة في نماذج اللغة الصوتية: فهي تُظهر أداءً أفضل باستمرار عند استخدام قليل جدًا أو لا استخدام على الإطلاق للاستدلال، مما يثير سؤالًا جوهريًا: هل يمكن للذكاء الصوتي أن يستفيد فعلاً من التفكير المتعمّق؟ نقدّم "Step-Audio-R1"، أول نموذج استدلال صوتي ناجح في فتح القدرات الاستدلالية في مجال الصوت. من خلال الإطار المُقترح بعنوان "استخلاص الاستدلال المُستند إلى الوسائط" (Modality-Grounded Reasoning Distillation - MGRD)، يتعلم نموذج Step-Audio-R1 إنتاج سلاسل استدلال مُتّصلة بالصوت، وتُرتكز فعلاً على السمات الصوتية، بدلًا من ابتكار تفكير مُتفرّع ومتناقض. يُظهر نموذجنا قدرات قوية في الاستدلال الصوتي، متفوّقًا على Gemini 2.5 Pro، ومتقريبًا من أداء النموذج الرائد حاليًا Gemini 3 Pro في مجموعة شاملة من اختبارات الفهم والاستدلال الصوتي التي تشمل الكلام والأصوات البيئية والموسيقى. تُثبت هذه النتائج أن الاستدلال هو قدرة قابلة للانتقال عبر الوسائط عندما تُرتكز بشكل مناسب، مما يحوّل التفكير الممتد من عبء إلى أداة قوية للذكاء الصوتي. وب Erecting أول نموذج استدلال صوتي ناجح، يفتح Step-Audio-R1 آفاقًا جديدة نحو بناء أنظمة استدلال متعددة الوسائط حقيقية، قادرة على التفكير العميق عبر جميع الحواس.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.