منذ 11 أيام

نهج استخلاص طول خالٍ من التدريب لـ LLMs: التفسير التباعي للانتباه والانسيابية اللوجستية (GALI)

Li, Yan, Zhang, Tianyi, Li, Zechuan, Han, Soyeon Caren

الملخص

النماذج الكبيرة للغة المستندة إلى مُحَوِّل (Transformer-based Large Language Models (LLMs)) تواجه صعوبات عند التعامل مع المدخلات التي تتجاوز نافذة السياق التدريبي لها، نظرًا لمشاكل التوزيع الخارجي للوضعية (Positional Out-of-Distribution (O.O.D.)) التي تُعَرِّض انتباه النموذج للخلل. وتواجه الحلول الحالية، بما في ذلك التخصيص الدقيق (fine-tuning) والطرق التي لا تتطلب تدريبًا، تحديات مثل عدم الكفاءة، والتداخل المُكرر، والقيم الشاذة في المخرجات (logit outliers)، أو فقدان المعلومات الوضعية المحلية. نقترح طريقة "الاستدلال المُتَوَقِّع للمنطق الانتباهي" (Greedy Attention Logit Interpolation (GALI))، وهي طريقة لا تتطلب تدريبًا، تُحسِّن قدرة النموذج على التعميم لطول النصوص من خلال إعادة استخدام فترات الوضعية المُدرَّبة سابقًا بطريقة جشعية، وتطبيق تداخل لمنطق الانتباه لاستبعاد القيم الشاذة. تحقق GALI أداءً مستقرًا وفائقًا عبر مجموعة واسعة من المهام التي تتطلب سياقًا طويلًا، دون الحاجة إلى ضبط مخصص حسب طول المدخل. كما تُظهر تحليلاتنا أن النماذج الكبيرة للغة تُفسِّر فترات الوضعية بشكل غير متساوٍ، وأن تقييد التداخل ضمن نطاقات ضيقة يُحسِّن الأداء، حتى في المهام ذات السياق القصير. تمثل GALI خطوة مهمة نحو معالجة أكثر موثوقية وقابلية للتطبيق العام للنصوص الطويلة في النماذج الكبيرة للغة. تم إتاحة التنفيذ العملي لـ GALI، بالإضافة إلى تجارب الورقة البحثية، عبر الرابط التالي: https://github.com/adlnlp/Gali.