منذ شهر واحد

خليط-من-الرجوعات: تعلم عمق رجعي ديناميكي للمعالجة التكيفية على مستوى الرمز

Sangmin Bae, Yujin Kim, Reza Bayat, Sungnyun Kim, Jiyoun Ha, Tal Schuster, Adam Fisch, Hrayr Harutyunyan, Ziwei Ji, Aaron Courville, Se-Young Yun

عرض تفاصيل الورقة البحثية View Code

خليط-من-الرجوعات: تعلم عمق رجعي ديناميكي للمعالجة التكيفية على مستوى الرمز

الملخص

توسيع نماذج اللغة يفتح الباب أمام قدرات مثيرة للإعجاب، ولكن المتطلبات الحاسوبية والذاكرة المرافقة تجعل التدريب والنشر باهظ الثمن. عادةً ما تستهدف الجهود الحالية لتحسين الكفاءة إما مشاركة المعلمات أو الحساب التكيفي، مما يترك السؤال حول كيفية تحقيق كلاهما في آن واحد مفتوحًا. نقدم هنا إطار عمل موحد يُعرف باسم "مزيج من الدوال المرتدة" (Mixture-of-Recursions - MoR)، والذي يجمع بين هذين محورَي الكفاءة داخل محول متكرر واحد.يقوم MoR بإعادة استخدام مجموعة مشتركة من الطبقات عبر خطوات التكرار لتحقيق كفاءة المعلمات، بينما تتيح الروابط الخفيفة التفكير على مستوى الرمز بشكل تكيفي من خلال تعيين عمق تكرار مختلف لكل رمز بشكل ديناميكي. هذا يسمح لـ MoR بتركيز حساب الانتباه التربيعي فقط بين الرموز النشطة في عمق تكرار معين، مما يحسن كفاءة الوصول إلى الذاكرة بشكل أكبر من خلال تخزين أزواج المفتاح-القيمة الخاصة بها فقط بشكل انتقائي. بالإضافة إلى هذه الآليات الأساسية، نقترح أيضًا نسخة مشتركة للمفاتيح والقيم (KV) تقوم بإعادة استخدام أزواج KV من أول عملية تكرار، وهي مصممة خصيصًا لتقليل وقت الاستعداد الأولي وحجم الذاكرة المستخدم.عبر نطاقات مختلفة من أحجام النماذج تتراوح بين 135 مليون إلى 1.7 مليار معلمة، يشكل MoR حدًّا جديدًا باريتو: عند نفس عدد العمليات العائمة للتدريب وأحجام نماذج أصغر، فإنه يخفض بشكل كبير حيرة التحقق ويحسن دقة الإجراءات القليلة الطلقات، مع تقديم معدل مرور أعلى مقارنة بالأسس التقليدية والنماذج المتكررة الموجودة حاليًا. تظهر هذه المكاسب أن MoR هو طريق فعال نحو جودة النماذج الكبيرة دون تحمل تكلفة هذه النماذج.