HyperAI

Fast-dLLM: تسريع نموذج اللغة الموزعة (Diffusion LLM) بدون تدريب من خلال تمكين ذاكرة التخزين المؤقت KV وفك التشفير المتوازي

Wu, Chengyue ; Zhang, Hao ; Xue, Shuchen ; Liu, Zhijian ; Diao, Shizhe ; Zhu, Ligeng ; Luo, Ping ; Han, Song ; Xie, Enze
تاريخ النشر: 6/1/2025
Fast-dLLM: تسريع نموذج اللغة الموزعة (Diffusion LLM) بدون تدريب من خلال تمكين ذاكرة التخزين المؤقت KV وفك التشفير المتوازي
الملخص

نماذج اللغات الكبيرة القائمة على الانتشار (Diffusion LLMs) أظهرت وعودًا في توليد النصوص غير التتابعي مع قدرات فك التشفير المتوازية. ومع ذلك، فإن سرعة الاستدلال العملية لنماذج الانتشار المصادر المفتوحة غالبًا ما تكون أقل من نماذج التتابعي بسبب عدم وجود ذاكرة التخزين المؤقت للمفتاح-القيمة (KV Cache) وتدهور الجودة عند فك تشفير العديد من الرموز في آنٍ واحد. لسد هذه الفجوة، نقدم آلية جديدة للتخزين المؤقت للمفتاح-القيمة على أساس الكتل مصممة خصيصًا للنماذج الانتشارية ثنائية الاتجاه، مما يمكّن من إعادة استخدام ذاكرة التخزين المؤقت مع انخفاض طفيف في الأداء. بالإضافة إلى ذلك، حددنا السبب الجذري لتدهور جودة التوليد في فك التشفير المتوازي وهو اضطراب اعتمادية الرموز تحت افتراض الاستقلال الشرطي. لمعالجة هذا الأمر، نقترح استراتيجية فك تشفير متوازي واعية بالثقة تقوم بتشفير الرموز التي تتجاوز عتبة الثقة بشكل اختياري، مما يخفف من انتهاكات الاعتماد ويحافظ على جودة التوليد. أظهرت نتائج التجارب على نموذجي LLaDA وDream عبر عدة مقاييس لأداء النماذج اللغوية الكبيرة تحسينًا في الإنتاجية يصل إلى \textbf{27.6 مرة} مع فقدان دقيق طفيف في الدقة، مما يغلق الفجوة في الأداء مع النماذج التتابعية ويفتح الطريق لنشر عملي لنماذج الانتشار اللغوية الكبيرة.