SDAR: منهج متماسك يعتمد على الانتشار-الانحدار التلقائي لتوليد التسلسلات القابلة للتوسع

الملخص
نُقدِّم SDAR، وهي منظومة متميزة تُسمَّى "الاندماج بين التوسع والانسياق التلقائي"، تُوحِّد كفاءة التدريب في النماذج الانسياقية التلقائية مع القدرة على الاستدلال المتوازي في النماذج التوسعية. بدلًا من التدريب التوافقي المكلف على النماذج التوسعية، تقوم SDAR بتحويل بسيط وخفيف للمنهاج، يحوِّل نموذجًا انسيقيًا تلقائيًا (AR) مُدرَّبًا جيدًا إلى نموذج توسيعي مُقسَّم إلى كتل، من خلال عملية تكيُّف قصيرة وفعّالة من حيث البيانات. أثناء الاستدلال، تُولِّد SDAR التسلسلات انسيقيًا عبر الكتل لضمان الاتساق العام، في حين تُفكَّك جميع الرموز داخل كل كتلة بشكل متوازٍ عبر عملية توسع منفصلة. تُظهر التجارب الواسعة أن النماذج الانسياقية التلقائية تظل أكثر كفاءة من حيث الموارد الحاسوبية مقارنةً بنماذج التوسع المُحجب (masked diffusion)، مما يُعدُّ أساسًا قويًا للتكيُّف. بالاعتماد على هذا التميُّز، تُحقِّق SDAR تحويلًا فعّالًا من النماذج الانسياقية إلى التوسعية بتكاليف مُنخفضة جدًا، مع الحفاظ على أداء النماذج الانسياقية، في الوقت الذي يُمكِّن من التوليد المتوازي. وتوسِّع الدراسات على المعمارية الكثيفة والهياكل المُختلطة من الخبراء (Mixture-of-Experts) يُؤكد أن SDAR تُScaling دون تنازل: فكلما زاد حجم النموذج، زادت قوته المقاومة تجاه حجم الكتل وحدود التفكيك، ما يُحقِّق مكاسب في السرعة دون فقدان في الدقة. وبالإضافة إلى الكفاءة، تُظهِر SDAR تحسينًا في التفكير الاستنتاجي والقدرة على التكيُّف مع المجالات المختلفة. إذ يتفوَّق نموذجنا بحجم 30 مليار معامل (30B MoE) على نموذجه الانسيقي التلقائي في اختبارات التفكير العلمي الصعبة مثل GPQA وChemBench، كما يحقق تحسينات إضافية عند تطبيق تقنيات التوسع أثناء الاختبار مثل التصويت بالأغلبية وقياس النجاح (pass@k). جمِعًا، تُثبِت هذه النتائج أن SDAR منظومة عملية تُجمِع بين مزايا الانسياق التلقائي والتوسعية، لتوفير استنتاجات قابلة للتوسع وبمعدل عالٍ من الكفاءة.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.