HyperAIHyperAI

Command Palette

Search for a command to run...

ما وراء الثابت: إزالة الضوضاء ذات الطول المتغير للنماذج الكبيرة للغة التوليدية

Jinsong Li Xiaoyi Dong Yuhang Zang Yuhang Cao Jiaqi Wang Dahua Lin

الملخص

تُعدّ النماذج اللغوية الكبيرة القائمة على الانتشار (DLLMs) بروزًا جديدًا كخيار قوي بديل للنماذج اللغوية الكبيرة التلقائية (Autoregressive) السائدة، حيث تُتيح توليدًا متوازيًا فعّالًا ونمذجةً شاملةً للسياق. ومع ذلك، يُعَرّض التطبيق العملي لـ DLLMs عائقًا معماريًا جوهريًا: الحاجة إلى تحديد طول التوليد مسبقًا وثابتًا. يؤدي هذا التخصيص الثابت للطول إلى تناقض مُقلق: فعندما يكون الطول غير كافٍ، يُضعف الأداء في المهام المعقدة، بينما يؤدي الطول الزائد إلى تحميل حسابي كبير أحيانًا مع تدهور في الأداء. وعلى الرغم من صلابة إطار الاستنتاج، نلاحظ أن النموذج نفسه يمتلك إشارات داخلية مرتبطة بطول الاستجابة المثالي لمهام معينة. لسد هذه الفجوة، نستفيد من هذه الإشارات الخفية ونُقدّم DAEDAL، وهي استراتيجية جديدة لتنقية الضوضاء دون الحاجة إلى إعادة تدريب (training-free)، تتيح تمديد الطول الديناميكي المُتكيف للنماذج اللغوية الكبيرة القائمة على الانتشار. تعمل DAEDAL على مرحلتين: 1) قبل عملية تنقية الضوضاء، تبدأ DAEDAL من طول توليد قصير، ثم تُوسعه تدريجيًا إلى طول أولي مناسب للمهمة، بقيادة معيار لاستكمال التسلسل. 2) أثناء عملية تنقية الضوضاء، تتدخل DAEDAL ديناميكيًا من خلال تحديد المناطق غير الكافية في التوليد وتوسيعها عبر إدراج رموز قناع (mask tokens)، مما يضمن أن تكون النتيجة النهائية مكتملة تمامًا. أظهرت تجارب واسعة على نماذج DLLMs أن DAEDAL تحقق أداءً مماثلًا، وفي بعض الحالات أفضل من النماذج الأساسية ذات الطول الثابت التي تم ضبطها بدقة، مع تحسين ملحوظ في الكفاءة الحسابية من خلال تحقيق نسبة فعّالة أعلى للرموز (effective token ratio). وبحلّ عائق الطول الثابت، تُفَتِّح DAEDAL آفاقًا جديدة للنماذج القائمة على الانتشار، وتُسْدِي فجوة حاسمة بينها وبين النماذج التلقائية، وتمهد الطريق لعمليات توليد أكثر كفاءة وفعالية.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
ما وراء الثابت: إزالة الضوضاء ذات الطول المتغير للنماذج الكبيرة للغة التوليدية | مستندات | HyperAI