منذ 10 أيام

يمكن لنموذج LLM المتباين أن يحقق استنتاجًا أسرع من النموذج التكراري من خلال قسر التباين المنفصل

Xu Wang, Chenkai Xu, Yijie Jin, Jiachun Jin, Hao Zhang, Zhijie Deng

الملخص

أصبحت نماذج اللغة الكبيرة القائمة على الانتشار (dLLMs) بديلاً واعداً لنموذج لغة كبيرة ذاتي التوليد (AR LLMs) في إنشاء النصوص، مع إمكانية فك تشفير عدة رموز في تكرار واحد. ومع ذلك، لم تُحقق أي من النماذج المفتوحة المصدر القائمة على الانتشار حتى الآن سرعة استنتاج أفضل مقارنة بنماذج AR LLMs ذات الحجم المماثل. ويُعد هذا البحث أول من يكسر هذا الحدّ، وذلك من خلال استراتيجية بسيطة وفعالة تُسمى "الدفع الانتشاري المنفصل" (D2F). تُزوّد D2F النماذج القائمة على الانتشار بقدرتين رئيسيتين: (1) التوليد التسلسلي على مستوى الكتل (block-wise autoregressive generation)، مما يسمح باستغلال ذاكرة التخزين المؤقت لـ KV؛ و(2) التنبؤ بالرموز التالية دون الحاجة إلى إكمال الكتل السابقة، ما يمكّن من فك التشفير المتوازي بين الكتل. وبهذا، تُعاد هندسة النماذج الأصلية القائمة على الانتشار لتصبح نموذجاً هجينًا بين التوليد التسلسلي والانتشار (AR-diffusion hybrid)، مما يعزز كفاءة الاستنتاج. ويمكن تنفيذ D2F باستخدام عملية توليد غير متزنة تعتمد على نماذج dLLMs المُدرّبة مسبقًا. ونُقترح أيضًا خوارزمية فك تشفير متسلسلة متوازية (pipelined parallel decoding)، التي تتيح تحقيق توازن بين الكفاءة والفعالية. وبناءً على التجارب العملية، تُحقق نماذج dLLMs التي تعتمد على D2F سرعة استنتاج تزيد عن 2.5 مرة مقارنة بنموذج LLaMA3 وQwen2.5 على مجموعة بيانات GSM8K. وبالمقارنة مع النماذج الأصلية القائمة على الانتشار مثل LLaDA وDream، يمكن تحقيق تسريع يزيد عن 50 مرة مع الحفاظ على جودة إخراج مماثلة. يمكن الاطلاع على الشيفرة المصدرية عبر الرابط التالي: https://github.com/zhijie-group/Discrete-Diffusion-Forcing.