"goole تطلق هدراً جديداً: MoR، يعزز سرعة الاستدلال ويقلص استهلاك الذاكرة بنسبة 50%"
هل هناك منافس جديد لـ Transformer؟ جوجل تطلق هندسة معمارية جديدة تضاعف سرعة الاستدلال باستخدام نصف الذاكرة في تطور حديث، أعلنت جوجل ديبمايند بالتعاون مع معهد العلوم والتكنولوجيا الكوري الجنوبي (KAIST) عن هندسة معالجة لغوية جديدة تُعرف باسم "Mixture-of-Recursions" (MoR). وفقًا للباحثين، يمكن لهذه الهندسة أن تحقق ضعف سرعة الاستدلال وتقليل حجم الحسابات أثناء التدريب بنسبة تقارب 50% من ذاكرة البيانات المؤقتة (KV Cache) المستخدمة. منذ إصداره في عام 2017، أصبحت هندسة Transformer أساس تقني للنماذج اللغوية الكبيرة، حيث تعتمد عليها معظم النماذج المتقدمة حاليًا. ومع زيادة حجم هذه النماذج، زادت احتياجات Transformer من الموارد الحاسوبية والذاكرة، مما جعل تكلفة التدريب والنشر باهظة الثمن. غالبًا ما كانت طرق تحسين الكفاءة السابقة تركز على جانب واحد فقط، مثل تقاسم المعلمات لتقليل حجم النموذج أو توزيع القوة الحاسوبية حسب الحاجة. ولكن نادرًا ما تمكنت هذه الطرق من تحقيق تحسينات متعددة في آن واحد. تكمن الابتكار الرئيسي في هندسة MoR في دمج الحسابات الراجعة مع آلية التوجيه الديناميكي ضمن إطار موحد لحل مشكلات الكفاءة المتعددة. في النموذج القياسي لـ Transformer، يتم معالجة كل وحدة نصية (Token) بمجموعة متماثلة من الطبقات الحاسوبية. أما MoR، فيغير هذا النمط، حيث يسمح لكل وحدة نصية بمرورها عبر عدد مختلف من الطبقات وفقًا لتعقيدها. تستخدم هذه الهندسة كتل معلمات مشتركة لزيادة كفاءة المعلمات، بينما يقرر "التوجيه الخفيف" (Lightweight Router) عدد مرات الحساب الراجعي التي يجب أن تمر بها كل وحدة نصية. أجرى فريق البحث عدة استراتيجيات للتوجيه، بما في ذلك "اختيار الخبراء" (Expert-Choice) و"اختيار الوحدات النصية" (Token-Choice)، بهدف تحقيق التوازن بين الحمولات الحاسوبية وتجنب المشاكل المنطقية في معالجة المعلومات. فيما يتعلق بتقاسم المعلمات، أظهرت النتائج أن استراتيجية "الدورة الوسطى" (Middle-Cycle) كانت الأفضل، حيث تبقي الطبقات الأولى والأخيرة مستقلة، بينما تتقاسم الطبقات الوسطى الأوزان، مما يضمن تحقيق توازن أفضل بين كفاءة المعلمات وقدرة النموذج على التعبير. إدارة الذاكرة تعد أيضًا من التحسينات الرئيسية في MoR. حتى مع تشارك المعلمات، فإن النماذج التقليدية للحساب الراجعي تولد ذاكرة مؤقتة (KV Cache) مستقلة في كل مرحلة تراجيدية، مما يتسبب في استهلاك ذاكرة كبير. اقترح MoR استراتيجيتين جديدتين لإدارة ذاكرة KV Cache: الذاكرة المؤقتة الراجعة (Recursive Cache): تخزن بيانات KV فقط للوحدات النصية التي تم توجيهها إلى خطوات الحساب الراجعي المحددة، وتقيّد حساب الانتباه بهذه البيانات المحلية، مما يقلل بشكل كبير من استهلاك ذاكرة KV Cache وكمية البيانات المُقرأة والمكتوبة. المشاركة الراجعة (Recursive Sharing): تستغل حقيقة أن جميع الوحدات النصية تمر عبر أول كتلة تراجيدية، حيث تخزن بيانات KV فقط في الخطوة الأولى وتشاركها في جميع الخطوات التراجيدية اللاحقة، مما يوفر ذاكرة بأقصى حد. أجرى الفريق اختبارات على نماذج مختلفة تتراوح بين 135 مليون و1.7 مليار معلمة. أظهرت النتائج أن النموذج الذي يستخدم الهندسة MoR كان قادرًا على تحقيق نسبة دقة متوسطة تبلغ 43.1% في مهام التعلم القليل العينات، متفوقًا على النموذج القياسي لـ Transformer الذي حقق نسبة دقة تبلغ 42.3%. كما أظهر MoR كفاءة حاسوبية أعلى، مما مكّنه من التعامل مع المزيد من بيانات التدريب ضمن ميزانية حاسوبية متساوية، وبالتالي تحسين أداء النموذج النهائي. في تجارب مقارنة أخرى مع حجم بيانات تدريب ثابت، تمكن نموذج MoR من تجاوز أداء النموذج القياسي باستخدام 25% أقل من حجم الحسابات، مع تقليل وقت التدريب بنسبة 19% واستهلاك ذاكرة الذروة بنسبة 25%. فيما يتعلق بأداء الاستدلال، كان تفوق MoR أكثر وضوحًا. استخدمت الهندسة تقنية دفع متزامن متدرج (Progressive Depth Batch) تسمح بدمج الوحدات النصية في مراحل حسابية مختلفة ضمن نفس الدفعة، لأنها تستخدم كتل معلمات مشتركة. تعاونت هذه التقنية مع آلية الخروج المبكر (Early Exit Mechanism) لتحسين معدل الإنتاج بشكل كبير. في اختبارات نموذج بحجم 360 مليون معلمة، حقق MoR-4 تحسينًا في سرعة الاستدلال بنسبة تصل إلى 2.06 مرة في إعدادات معينة. كشفت الدراسة أيضًا أن النموذج MoR يتعلم كيفية توجيه المزيد من الموارد الحاسوبية نحو الوحدات النصية الأكثر أهمية من الناحية الدلالية. على سبيل المثال، يتم توجيه الوحدات النصية الغنية بالمحتوى مثل "People" أو "defensively confident" إلى ثلاث خطوات حسابية راجعية، بينما تحتاج الوحدات النصية الوظيفية مثل "and" إلى خطوات أقل بكثير. لم يكن ظهور MoR مفاجئًا تمامًا، حيث يعتمد على البحوث السابقة التي أجرتها جوجل ديبمايند، مثل تكنولوجيا Mixture-of-Depths (MoD)، والتي استكشفت كيفية توزيع الموارد الحاسوبية بطريقة ديناميكية. كما أن تكنولوجيا Transformer الراجعي، وهي تقنية تشارك المعلمات، قد أرست الأساس النظري لـ MoR. تستمر هذه الهندسة في تطوير هذه الأبحاث من خلال التركيز على تحسينات متعددة في كفاءة المعلمات والحساب والذاكرة. بشكل عام، رغم أنه من المبكر تحديد ما إذا كانت الهندسة MoR ستتمكن من استبدال Transformer تمامًا، إلا أنها تقدم اتجاهًا واعدًا في تصميم نماذج اللغة المستقبلية، مما يعزز الأداء والكفاءة بشكل كبير ويقلل من تكاليف النشر والاستخدام.