HyperAIHyperAI

Command Palette

Search for a command to run...

خليط-من-الرجوعات: تعلم عمق رجعي ديناميكي للمعالجة التكيفية على مستوى الرمز

الملخص

توسيع نماذج اللغة يفتح الباب أمام قدرات مثيرة للإعجاب، ولكن المتطلبات الحاسوبية والذاكرة المرافقة تجعل التدريب والنشر باهظ الثمن. عادةً ما تستهدف الجهود الحالية لتحسين الكفاءة إما مشاركة المعلمات أو الحساب التكيفي، مما يترك السؤال حول كيفية تحقيق كلاهما في آن واحد مفتوحًا. نقدم هنا إطار عمل موحد يُعرف باسم "مزيج من الدوال المرتدة" (Mixture-of-Recursions - MoR)، والذي يجمع بين هذين محورَي الكفاءة داخل محول متكرر واحد.يقوم MoR بإعادة استخدام مجموعة مشتركة من الطبقات عبر خطوات التكرار لتحقيق كفاءة المعلمات، بينما تتيح الروابط الخفيفة التفكير على مستوى الرمز بشكل تكيفي من خلال تعيين عمق تكرار مختلف لكل رمز بشكل ديناميكي. هذا يسمح لـ MoR بتركيز حساب الانتباه التربيعي فقط بين الرموز النشطة في عمق تكرار معين، مما يحسن كفاءة الوصول إلى الذاكرة بشكل أكبر من خلال تخزين أزواج المفتاح-القيمة الخاصة بها فقط بشكل انتقائي. بالإضافة إلى هذه الآليات الأساسية، نقترح أيضًا نسخة مشتركة للمفاتيح والقيم (KV) تقوم بإعادة استخدام أزواج KV من أول عملية تكرار، وهي مصممة خصيصًا لتقليل وقت الاستعداد الأولي وحجم الذاكرة المستخدم.عبر نطاقات مختلفة من أحجام النماذج تتراوح بين 135 مليون إلى 1.7 مليار معلمة، يشكل MoR حدًّا جديدًا باريتو: عند نفس عدد العمليات العائمة للتدريب وأحجام نماذج أصغر، فإنه يخفض بشكل كبير حيرة التحقق ويحسن دقة الإجراءات القليلة الطلقات، مع تقديم معدل مرور أعلى مقارنة بالأسس التقليدية والنماذج المتكررة الموجودة حاليًا. تظهر هذه المكاسب أن MoR هو طريق فعال نحو جودة النماذج الكبيرة دون تحمل تكلفة هذه النماذج.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp