تحسين تدفق البيانات في تدريب الذكاء الاصطناعي عبر UCCL: حل جديد لمشكلة ازدحام الشبكة
يُعد التدريب على نماذج الذكاء الاصطناعي الضخمة مثل GPT-4 من التحديات التقنية الكبيرة، حيث تُستخدم مئات أو حتى آلاف وحدات المعالجة الرسومية (GPUs) لمعالجة ملايين المعلمات. ومع ذلك، تشكل مشكلة ازدحام الشبكة عائقًا كبيرًا، حيث تُحتاج إلى نقل تيرابايتات من البيانات بين هذه الوحدات خلال كل خطوة تدريب، مما يؤدي إلى تباطؤ عمليات التدريب رغم قوة المعالجة العالية. في الشبكات المستخدمة لتدريب النماذج، يتم استخدام نموذج "الشبك والورقة" (spine-leaf topology)، حيث تربط "ورقة الشبكة" (ToR switches) الوحدات الرسومية، بينما تربط "الشبك" (spine switches) بين الوراق. هذه البنية توفر مسارات منخفضة التأخير، لكنها تواجه صعوبات مع أنماط الاتصال المستخدمة في التدريب. في بيئة تدريب تتكون من 3 عقد، كل منها يحتوي على 8 وحدات H100، تُحتاج إلى نقل 6.7 جيجابايت من البيانات خلال كل خطوة تدريب. ومع تكرار هذا العملية آلاف المرات، يصبح نقل تيرابايتات من البيانات عبر الشبكة أمرًا شائعًا. لتسهيل هذه العملية، يتم استخدام تقنية RDMA، التي تسمح للوحدات بالاتصال مباشرة بذاكرة بعضها البعض دون الحاجة إلى تدخل وحدة المعالجة المركزية (CPU). رغم فائدة RDMA، إلا أن أنظمة التحكم في الازدحام مثل DCQCN وPFC لا تتعامل بشكل فعال مع أنماط البيانات المفاجئة والكثيفة التي تنتج عن التدريب في الذكاء الاصطناعي. في حالات الازدحام، تبدأ هذه الأنظمة بتحذير المرسلين، لكنها تؤخر بشكل كبير، مما يؤدي إلى توقف العمليات. للتغلب على هذه التحديات، تم تطوير UCCL، وهو طبقة نقل مُحسّنة تُدمج بين NCCL، مكتبة الاتصالات الجماعية، ومحركات بطاقة الشبكة (NIC). UCCL يُعطي المستلم (مثل GPU0) سيطرة على حركة البيانات، ويُنظم إرسالها بناءً على سعة مساراته، مما يمنع الازدحام من البدء. كما أنه يستخدم طوابق افتراضية في البرمجيات، ويُوزع البيانات عبر قنوات مشاركة واحدة لكل بطاقة شبكة، مما يقلل من التصادمات الناتجة عن ECMP. بفضل هذه الميزات، تُظهر UCCL أداءً أفضل في تدريب النماذج الكبيرة، حيث تقلل من تباطؤ الشبكة، وتحافظ على استقرارها حتى في الظروف المزدحمة. وقد ثبتت فعاليته في اختبارات حقيقية، سواء على أنظمة H100 أو T4، دون الحاجة إلى تغيير البنية التحتية للشبكة. UCCL يُعتبر حلًا عمليًا لمشكلة ازدحام الشبكة في تدريب الذكاء الاصطناعي، حيث يُركز على التحكم المبكر في تدفق البيانات، بدلًا من محاولة معالجة الازدحام بعد حدوثه. هذا يُحسّن كفاءة التدريب ويعزز قدرة الشركات على تطوير نماذج أكثر تعقيدًا دون تكاليف عالية. المصدر: UCCL هو مشروع مبتكر يهدف إلى تحسين أداء الشبكات في تدريب النماذج الكبيرة، ويتم تطويره وفقًا لاحتياجات الذكاء الاصطناعي الحديث. يُستخدم في الأبحاث والتطبيقات الصناعية، ويُعتبر مثالًا على الابتكار في مجال التكنولوجيا.