الملخص

نموذج اللغة الكبير القائم على التنبؤ التسلسلي (AR LLM) حقق أداءً ملحوظًا في مجموعة واسعة من المهام اللغوية الطبيعية، إلا أن عملية الاستخلاص التسلسلية المتأصلة فيه تحد من كفاءة التوليد. في هذا العمل، نقترح نموذج Fast-dLLM v2، وهو نموذج لغوي احتمالي مبني على توزيع كتلي (dLLM) مُصمم بعناية، يُحوّل النماذج المُدرّبة مسبقًا القائمة على التنبؤ التسلسلي بكفاءة إلى نماذج احتمالية كتلية لتوليد النصوص بالتوازي، وذلك باستخدام فقط حوالي 1 مليار رمز (token) في التدريب الدقيق. يمثل هذا انخفاضًا بنسبة 500 مرة في كمية بيانات التدريب مقارنةً بالنماذج الاحتمالية الكتلية ذات الانتباه الكامل مثل Dream (الذي استخدم 580 مليار رمز)، مع الحفاظ على أداء النموذج الأصلي. تُقدّم طريقة التدريب الجديدة التي نقترحها دمجًا بين آلية توزيع كتلي وقناع انتباه مكمل، ما يُمكّن من نمذجة السياق ثنائية الاتجاه على مستوى الكتل دون التضحية بأهداف التدريب التسلسلي. ولتعزيز سرعة الاستخلاص بشكل أكبر، نصمم آلية تخزين تسلسلية: حيث يخزن ذاكرة كتلية تمثل السياقات التاريخية عبر الكتل، وذاكرة فرعية للقطع الصغيرة تتيح توليدًا متوازيًا فعّالًا داخل الكتل التي لم تُستخلص بالكامل. وباستخدام خط أنابيب الاستخلاص المتوازي التي نُقدّمها، يحقق Fast-dLLM v2 تسريعًا يصل إلى 2.5 مرة مقارنةً بالاستخلاص التسلسلي القياسي، دون التضحية بجودة التوليد. تُظهر التجارب الواسعة على مجموعة متنوعة من المعايير أن Fast-dLLM v2 يُوازي أو يتفوق على النماذج القائمة على التنبؤ التسلسلي من حيث الدقة، مع تقديم كفاءة من الطراز الأول بين نماذج dLLM، ما يُعد خطوة مهمة نحو تنفيذ عملي لنموذج لغوي كبير سريع ودقيق. سيتم الإفصاح عن الكود والنماذج بشكل عام.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار