Command Palette
Search for a command to run...
Blagoev Nikolay Ersoy O\u011fuzhan Chen Lydia Yiyu

الملخص
تدريب النماذج اللغوية الكبيرة (LLMs) على عقد حاسوبية لامركزية وذات قدرة حسابية محدودة، مثل العديد من الحالات الفورية المحلية، يخفض تكلفة التدريب ويتيح ديمقراطية النموذج. التحدي الحتمي هنا هو دوران العقد بسبب الأعطال وسياسات جدولة المشغل، مما يؤدي إلى فقدان مرحلة - وهي جزء من النموذج. الطرق التقليدية للتعافي من الأعطال هي إما استخدام نقاط التحقق (checkpointing)، حيث يتم إرسال نسخة دورية من النموذج بأكمله إلى تخزين إضافي، أو الحساب الزائد (redundant computation). هذه الطرق تؤدي إلى زيادة كبيرة في التكلفة التواصلية والحسابية حتى في حالات عدم حدوث أعطال وتكون فعالية ضعيفة في بيئات ذات نماذج كبيرة.في هذا البحث، نقترح طريقة التعافي الفعالة "CheckFree"، حيث يتم استبدال المرحلة الفاشلة بمتوسط وزني للمراحل المجاورة الأقرب إليها. بخلاف أحدث الأساليب، لا تتطلب CheckFree أي حساب أو تخزين إضافي. ومع ذلك، بسبب طبيعة متوسط المراحل المجاورة، يمكنها فقط التعافي من أعطال المراحل الوسيطة. نوسع طرقتنا أكثر في CheckFree+ باستخدام تنفيذ أنابيب خارج الرتبة (out-of-order pipeline execution) للتحمل ضد انهيار المراحل الأولى والأخيرة. بفضل تنفيذ الأنابيب خارج الرتبة، يتم تقليد سلوك تلك المراحل بواسطة المراحل المجاورة لها، مما يسمح لـ CheckFree+ بالتعافي منها ببساطة عن طريق نسخ الأوزان من الجيران المباشرين.لتمكين التعافي من طبقات التضمين وإزالة التضمين ((de)embedding layers)، تقوم CheckFree+ بنقل تلك الطبقات إلى المراحل المجاورة، وهو ما يتطلب زيادة تخزينية نسبية صغيرة. قمنا بتقييم طرقتنا بشكل شامل على نماذج LLaMa بحجم النموذج يتراوح بين 124 مليون و1.5 مليار مع معدلات أعطال متغيرة. في حالة معدلات الأعطال المنخفضة والمتوسطة (5-10%)، تتفوق كل من CheckFree وCheckFree+ على نقاط التحقق والحساب الزائد من حيث التقارب الزمني الجداري بنسبة تزيد عن 12%. يمكن تشغيل كلا مقترحينا عبر الكود المتاح لدينا على الرابط: https://github.com/gensyn-ai/CheckFree.
مستودعات الكود
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.