HyperAI

تواجه أنظمة تدريب نماذج Transformer مشكلة أساسية تتمثل في إهدار الوقت في عمليات نقل البيانات بين الذاكرة والمعالج بدلاً من العمليات الحسابية نفسها. بينما تعتمد هذه الأنظمة على الجبر الخطي الكثيف، فإن نسبة كبيرة من الوقت الإجمالي تُستهلك في المشغلات غير الحرجة مثل التطبيع (Normalization) والدوال التنشيطية وتحديثات البقايا، التي تنقل كميات كبيرة من البيانات الوسيطة عبر الذاكرة العالمية مع إجراء حسابات ضئيلة. هذا النقل المتكرر للبيانات أصبح عنق زجاجة رئيسيًا في أطر العمل المحسّنة جيدًا. لحل هذه المعضلة، طوّر الباحثون تقنية جديدة تسمى CODA، وهي تجريد برمجي للنواة (Kernel Abstraction) على وحدات معالجة الرسوميات. تهدف هذه التقنية إلى إعادة صياغة عمليات Transformer كثيفة الحركة للبيانات لتعمل كبرامج تجمع بين عملية ضرب المصفوفات العامة (GEMM) وعمليات الإغلاق (Epilogue) التي تليها. يعتمد المفهوم على ملاحظة أن العديد من مشغلات Transformer المعقدة، والتي تُعرض عادةً ككلمات منفصلة في أطر العمل، يمكن إعادة تمثيلها جبريًا لتنفيذها مباشرة بينما تبقى ناتج عملية ضرب المصفوفات مخزنًا على الرقاقة الداخلية للوحدة قبل كتابتها في الذاكرة الخارجية. تعمل تقنية CODA عن طريق تثبيت الحلقة الرئيسية لضرب المصفوفات، مما يسمح بتركيز الأداء على البنية الأساسية، بينما تفتح واجهة صغيرة ومتكاملة من وحدات الإغلاق القابلة للتركيب. تشمل هذه الوحدات عمليات التحجيم (Scaling)، والاختزالات (Reductions)، والتحويلات الثنائية، والتراكم (Accumulation). توفر هذه الواجهة المقيدة هيكل أداء يحاكي الكود المكتوب يدويًا بواسطة خبراء، مع الحفاظ على المرونة الكافية لتغطية تقريبًا جميع الحسابات غير المتعلقة بالانتباه (Attention) في كل من الممرات الأمامية والخلفية لنماذج Transformer القياسية. أظهرت الاختبارات التي أجريت على أعباء عمل Transformer النموذجية أن كود CODA، سواء تم تأليفه من قبل البشر أو من قبل نماذج الذكاء الاصطناعي الكبيرة، يحقق أداءً عاليًا. يشير هذا النجاح إلى أن برمجة نمط "ضرب المصفوفات زائد الإغلاق" تمثل مسارًا عمليًا وواعدًا لجمع بين إنتاجية الأطر البرمجية العليا وكفاءة الأجهزة على المستوى المنخفض. تهدف هذه الطريقة إلى التغلب على قيود الذاكرة وتعزيز سرعة التدريب بشكل كبير دون التضحية بالقدرة على التكيف مع هياكل النماذج المعقدة. يرتبط هذا البحث بمجال تعلم الآلة، حيث تسعى التطورات المستمرة لتحسين كفاءة الحوسبة في تدريب نماذج الذكاء الاصطناعي الضخمة. يُظهر عمل CODA أن إعادة هندسة كيفية تنفيذ العمليات الحسابية على الأجهزة يمكن أن تؤدي إلى قفزات كبيرة في الأداء، مما يفتح آفاقًا جديدة للباحثين والمطورين لبناء أنظمة أكثر كفاءة وسرعة في المستقبل.

الروابط ذات الصلة

الروابط ذات الصلة

الروابط ذات الصلة

Command Palette

إعادة كتابة كتل Transformer كبرامج GEMM-Epilogue

الروابط ذات الصلة

Command Palette

إعادة كتابة كتل Transformer كبرامج GEMM-Epilogue

الروابط ذات الصلة

Command Palette

إعادة كتابة كتل Transformer كبرامج GEMM-Epilogue

الروابط ذات الصلة