HyperAIHyperAI

Command Palette

Search for a command to run...

كل شيء ليس مفقودًا: استعادة LLM بدون نقاط تحكم

Blagoev Nikolay Ersoy O\u011fuzhan Chen Lydia Yiyu

الملخص

تدريب النماذج اللغوية الكبيرة (LLMs) على عقد حاسوبية لامركزية وذات قدرة حسابية محدودة، مثل العديد من الحالات الفورية المحلية، يخفض تكلفة التدريب ويتيح ديمقراطية النموذج. التحدي الحتمي هنا هو دوران العقد بسبب الأعطال وسياسات جدولة المشغل، مما يؤدي إلى فقدان مرحلة - وهي جزء من النموذج. الطرق التقليدية للتعافي من الأعطال هي إما استخدام نقاط التحقق (checkpointing)، حيث يتم إرسال نسخة دورية من النموذج بأكمله إلى تخزين إضافي، أو الحساب الزائد (redundant computation). هذه الطرق تؤدي إلى زيادة كبيرة في التكلفة التواصلية والحسابية حتى في حالات عدم حدوث أعطال وتكون فعالية ضعيفة في بيئات ذات نماذج كبيرة.في هذا البحث، نقترح طريقة التعافي الفعالة "CheckFree"، حيث يتم استبدال المرحلة الفاشلة بمتوسط وزني للمراحل المجاورة الأقرب إليها. بخلاف أحدث الأساليب، لا تتطلب CheckFree أي حساب أو تخزين إضافي. ومع ذلك، بسبب طبيعة متوسط المراحل المجاورة، يمكنها فقط التعافي من أعطال المراحل الوسيطة. نوسع طرقتنا أكثر في CheckFree+ باستخدام تنفيذ أنابيب خارج الرتبة (out-of-order pipeline execution) للتحمل ضد انهيار المراحل الأولى والأخيرة. بفضل تنفيذ الأنابيب خارج الرتبة، يتم تقليد سلوك تلك المراحل بواسطة المراحل المجاورة لها، مما يسمح لـ CheckFree+ بالتعافي منها ببساطة عن طريق نسخ الأوزان من الجيران المباشرين.لتمكين التعافي من طبقات التضمين وإزالة التضمين ((de)embedding layers)، تقوم CheckFree+ بنقل تلك الطبقات إلى المراحل المجاورة، وهو ما يتطلب زيادة تخزينية نسبية صغيرة. قمنا بتقييم طرقتنا بشكل شامل على نماذج LLaMa بحجم النموذج يتراوح بين 124 مليون و1.5 مليار مع معدلات أعطال متغيرة. في حالة معدلات الأعطال المنخفضة والمتوسطة (5-10%)، تتفوق كل من CheckFree وCheckFree+ على نقاط التحقق والحساب الزائد من حيث التقارب الزمني الجداري بنسبة تزيد عن 12%. يمكن تشغيل كلا مقترحينا عبر الكود المتاح لدينا على الرابط: https://github.com/gensyn-ai/CheckFree.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
كل شيء ليس مفقودًا: استعادة LLM بدون نقاط تحكم | مستندات | HyperAI