منذ 13 أيام

ما وراء الثابت: إزالة الضوضاء ذات الطول المتغير للنماذج الكبيرة للغة التوليدية

Jinsong Li, Xiaoyi Dong, Yuhang Zang, Yuhang Cao, Jiaqi Wang, Dahua Lin

الملخص

تُعدّ النماذج اللغوية الكبيرة القائمة على الانتشار (DLLMs) بروزًا جديدًا كخيار قوي بديل للنماذج اللغوية الكبيرة التلقائية (Autoregressive) السائدة، حيث تُتيح توليدًا متوازيًا فعّالًا ونمذجةً شاملةً للسياق. ومع ذلك، يُعَرّض التطبيق العملي لـ DLLMs عائقًا معماريًا جوهريًا: الحاجة إلى تحديد طول التوليد مسبقًا وثابتًا. يؤدي هذا التخصيص الثابت للطول إلى تناقض مُقلق: فعندما يكون الطول غير كافٍ، يُضعف الأداء في المهام المعقدة، بينما يؤدي الطول الزائد إلى تحميل حسابي كبير أحيانًا مع تدهور في الأداء. وعلى الرغم من صلابة إطار الاستنتاج، نلاحظ أن النموذج نفسه يمتلك إشارات داخلية مرتبطة بطول الاستجابة المثالي لمهام معينة. لسد هذه الفجوة، نستفيد من هذه الإشارات الخفية ونُقدّم DAEDAL، وهي استراتيجية جديدة لتنقية الضوضاء دون الحاجة إلى إعادة تدريب (training-free)، تتيح تمديد الطول الديناميكي المُتكيف للنماذج اللغوية الكبيرة القائمة على الانتشار. تعمل DAEDAL على مرحلتين: 1) قبل عملية تنقية الضوضاء، تبدأ DAEDAL من طول توليد قصير، ثم تُوسعه تدريجيًا إلى طول أولي مناسب للمهمة، بقيادة معيار لاستكمال التسلسل. 2) أثناء عملية تنقية الضوضاء، تتدخل DAEDAL ديناميكيًا من خلال تحديد المناطق غير الكافية في التوليد وتوسيعها عبر إدراج رموز قناع (mask tokens)، مما يضمن أن تكون النتيجة النهائية مكتملة تمامًا. أظهرت تجارب واسعة على نماذج DLLMs أن DAEDAL تحقق أداءً مماثلًا، وفي بعض الحالات أفضل من النماذج الأساسية ذات الطول الثابت التي تم ضبطها بدقة، مع تحسين ملحوظ في الكفاءة الحسابية من خلال تحقيق نسبة فعّالة أعلى للرموز (effective token ratio). وبحلّ عائق الطول الثابت، تُفَتِّح DAEDAL آفاقًا جديدة للنماذج القائمة على الانتشار، وتُسْدِي فجوة حاسمة بينها وبين النماذج التلقائية، وتمهد الطريق لعمليات توليد أكثر كفاءة وفعالية.