تعزيز مهارات الاستدلال في نموذج اللغة الجديد d1 بواسطة التعلم التعزيزي
تعزيز مهارات التفكير في نموذج اللغة الجديد d1 باستخدام التعلم التعزيزي في السنوات القليلة الماضية، شهد استخدام نماذج اللغات الضخمة (LLMs) ازدهارًا كبيرًا، حيث يستخدم ملايين الأشخاص تطبيقات الذكاء الاصطناعي في مجموعة متنوعة من التطبيقات. هذا الازدهار أدّى إلى زيادة كبيرة في الطلب على الكهرباء لتوفير الطاقة اللازمة لمراكز البيانات التي تعمل على تشغيل هذه التطبيقات الحاسوبية المكثفة. لذلك، بحث الباحثون عن طرق بديلة لتقديم خدمات الذكاء الاصطناعي للمجتمع المستخدم. أحد هذه الطرق يشمل استخدام نماذج اللغات الضخمة ذاتية التوسع (dLLMs) كبدائل أو تكميلات لنماذج LLMs التقليدية. كيفية عمل نماذج dLLMs نماذج dLLMs هي نماذج ذكاء اصطناعي تصل إلى الإجابات بطريقة مختلفة عن نماذج LLMs. بدلاً من استخدام النهج التوليدي، تعتمد هذه النماذج على عملية التوسع لتحديد الإجابات. تم استخدام هذه النماذج لأول مرة لإنشاء صور، حيث تعلمت النماذج كيفية إضافة الضوضاء الشديدة إلى صورة ثم التدريب على عكس العملية حتى لا يبقى سوى الصورة الأصلية. عند تطبيق هذه الطريقة على النصوص، يتم تحويل الأحرف أو الكلمات إلى رموز (tokens) كمثيل للبكسلات. النتيجة هي نموذج يستخدم الأقنعة (masks) كمثيل للضوضاء لإزالة الرموز تدريجيًا حتى لا يبقى سوى خصائص الأقنعة، ثم يتم تدريب النموذج على عكس العملية حتى يبقى الرموز فقط. الميزة الرئيسية لهذه الطريقة هي أنها قد تتطلب قدرًا أقل من القوة الحاسوبية مقارنة بنماذج LLMs. تحديات نماذج dLLMs ومع ذلك، كان أداء نماذج dLLMs في المهام التي تتطلب مهارات تفكير منطقية ورياضية ضعيفًا مقارنة بنماذج LLMs. هذا هو ما دفع فريقًا من الباحثين في جامعة كاليفورنيا، لوس أنجلوس، بالتعاون مع زميل من Meta AI، إلى العمل على تحسين قدرات التفكير في نموذج dLLM من خلال إضافة التعلم التعزيزي (reinforcement learning). بناء نموذج d1 لفريق الباحثين، قاموا ببناء نموذج d1 من خلال إضافة عملية ثنائية. الخطوة الأولى تضمنت تحسين التدريب على مجموعة البيانات باستخدام بيانات عالية الجودة. الخطوة الثانية استخدمت التعلم التعزيزي بإضافة خوارزمية تسمى diffu-GRPO، والتي تعتمد على مبادئ الرياضيات لتقدير مستويات عالية، بالإضافة إلى تقنية تسمى "إخفاء الدعوات العشوائي" (random prompt masking). هذه التقنية تساعد في تحسين قدرة النموذج على فهم واستنتاج الإجابات بشكل أكثر دقة. اختبار نموذج d1 حتى الآن، أظهرت الاختبارات أن نموذج d1 يعمل بشكل فعال. النماذج التي تستخدم هذا الإطار حققت نقاطًا أعلى في معايير مهارات التفكير الرياضي والمنطقي مقارنة ببعض النماذج الأخرى مثل LLaDA-8BInstruct. يقترح الفريق البحثي أن إطاراتهم جاهزة للاختبار من قبل كيانات أخرى قد ترغب في تكييف نماذج الذكاء الاصطناعي الخاصة بها لدمج التحسينات التي اقترحها الفريق. تقييم الخبراء يُعتبر هذا التطور خطوة مهمة في مجال الذكاء الاصطناعي، حيث يمكن أن يساهم في تقليل استهلاك الطاقة وتوفير حلول أكثر فعالية وأقل تكلفة. كما يفتح الباب أمام المزيد من الابتكارات في تحسين قدرات التفكير والنطق في النماذج اللغوية. نبذة عن الشركة Meta AI هي شركة رائدة في مجال البحث والتطوير في الذكاء الاصطناعي، وتهدف إلى تطوير تقنيات متطورة تسهم في تحسين حياة الناس وتعزيز التقدم العلمي والتكنولوجي. التعاون بين Meta AI وجامعة كاليفورنيا، لوس أنجلوس، يعكس الالتزام المشترك بالابتكار والبحث العلمي في هذا المجال الحيوي.