HyperAI
Back to Headlines

إعادة تعريف التعلم الذكي: BARL يطور الإطار الملائم لتعلم اللغة المعمّق عبر مبدأ "التفكر الذاتي" وإدارة الاختيارات بشكل فعال

منذ 15 أيام

هل عملية التفكير العكسي في النماذج الكبيرة هي استكشاف فعال أم مجرد "شكليات"؟ فريق من الباحثين في جامعة نورث ويسترن الأمريكية وجوجل وDeepMind طوروا إطار تعليم تعزيزي مُتأقلم بيزاً (BARL)، والذي يهدف إلى إلقاء الضوء للمرة الأولى على الأسباب الأساسية للتصرفات التأملية في النماذج الكبيرة، وتحديد الطرق التي يجب أن تأخذها، والوقت الذي يجب أن تحدث فيه. هذا الإطار يقدم نصائح عملية من خلال آلية قرار واضحة، حيث يوضح للنموذج الوقت المناسب للتفكير العكسي، وكيفية القيام بذلك، ولماذا يجب عليه ذلك. الخوارزمية BARL مبتكرة في ثلاثة نواحي رئيسية: أولاً، تعتمد على آلية الاختيار الأمثل من بين N خيار (linearized best-of-N)، والتي توجه النموذج لدمج استراتيجيات متعددة وحذف الأقل فعالية تدريجيًا. ثانيًا، تحول الإطار الجديد نظرية النموذج الكبيرة إلى عملية قرار مُتأقلمة بيزاً ماركوفية (MDP)، مما يتيح للنموذج الحفاظ على "توزيع الفرضيات الخلفي" في بيئات ذات عدم يقينية. ثالثًا، بنى الفريق نظامًا مغلق الدائرة يتكامل فيه التفكير العكسي والتحقق. بمعنى آخر، في حالة حل المسائل الرياضية، ستنجز الخوارزمية BARL توليد استراتيجيات متعددة لحل المسألة، ثم تحديث توزيع الفرضيات بناءً على الردود من البيئة (مثل صحة الخطوات)، وفي النهاية تتقارب نحو الحل الأمثل. هذه العملية مشابهة لمراحل كشف جريمة، حيث يتم استبعاد المشتبه بهم الذين يثبت خطأهم تدريجيًا مع الحصول على أدلة جديدة. خلال اختبارات مختلفة أجريت باستخدام نماذج مختلفة مثل Qwen2.5-Math-1.5B وQwen2.5-Math-7B وR1-Distill-Llama-8B، أظهرت BARL تفوقًا واضحًا في كفاءة استخدام الرموز: فقد استخدمت أقل بنسبة 39% من القاعدة الراسخة التي تعتمد على مكافآت التقدم، وأقل بنسبة 50% من الخوارزمية GRPO، وأقل بنسبة أكثر من 90% من النموذج الأساسي Qwen2.5-Math-1.5B. هذا يفتح الباب أمام مساعد ذكي قادر على استبعاد الأفكار الخاطئة بسرعة أثناء حل المشكلات، وتكييف الكود بناءً على ردود الفعل من الاختبارات - تمامًا كما يفعل الخبراء البشريون. الفريق البحثي كشف أيضًا عن تحديات أساسية في مجال التعليم التعزيزي التقليدي، الذي يعمل مثل الطالب المتفوق الذي يحفظ الإجابات دون فهمها. بينما يتعلم النموذج في التدريب كيفية اتباع المسار الصحيح عبر التجربة والخطأ، فإنه في الاختبارات يستعيد الإجابات التي حفظها دون إجراء أي استكشاف. هذا يجعل النموذج قليل التكيف مع السياقات الجديدة. BARL، في المقابل، تتيح للنموذج تعلم قواعد مجردة يمكن تطبيقها على حالات جديدة، مما يسمح له بالتكيف الذاتي والتحسن المستمر. الخوارزمية الجديدة تقوم باستبعاد الفرضيات الخاطئة بفعالية من خلال آلية "تقدير البراءة من الذنب" كشرط لاستكشاف مسارات جديدة. عندما يتوقع النموذج أن الاستراتيجية A هي الأفضل ولكن النتائج لا تتوافق مع التوقعات، يُعتبر A غير مثلى ويتم استبعاده. هذا يشبه تركيب "زر تفكير" في النموذج بحيث أنه عند مواجهة تناقض بين المعتقدات الداخلية والردود من البيئة، يتم تنشيط عملية إعادة ترتيب الاستراتيجيات. في تطبيقها، أثبتت BARL فعاليتها في مهام التفكير المعقدة، خاصة في الرياضيات. بما أن المسائل الرياضية تميزت بوجود إجابات واضحة يمكن التحقق منها وردود فعل فورية، فإنها كانت بيئة مثالية لاختبار آليات التفكير العكسي. BARL تتميز بإمكانية تكييفها مع مستوى تعقيد المهمة، مما يجعلها أداة مثالية لتحسين كفاءة التعلم ودقة النتائج. في المستقبل، يعتزم الفريق البحثي توسيع نطاق دراسته ليشمل مرحلة ما قبل التدريب، وذلك لاستكشاف طرق التعلم الفعالة التي يمكن تطبيقها على النماذج الأولية. بالإضافة إلى ذلك، سيجري الفريق تجارب على مجموعات البيانات والموديلات الأكبر لتأكيد فعالية BARL. من بين المجالات الأخرى التي تعد مرشحة للتطبيق، هناك توليد الرموز البرمجية وتعزيز التعاون بين الوكلاء الذكية، حيث يمكن لـ BARL أن تسهل عملية التحقق من صحة الشيفرات البرمجية على مستوى الخطوات الفردية، وأن تساعد في تنسيق التحديثات بين الوكلاء المتعددين. الدكتور شن آو زانغ، الطالب الباحث في جامعة نورث ويسترن، يلقي الضوء على تطور هذا الإطار بقوله: "التعليم التقليدي يمنح الطالب الأسماك، بينما يعلمه كيف يصطاد الأسماك هو الحل الأمثل". يرتبط هذا المبدأ بمفهوم التعلم الفعال، حيث يُركز على تطوير قدرة النموذج على التكيف مع البيئات الجديدة بدلاً من حفظ حلول معينة فقط. هذا العمل يعكس نهج زانغ البحثي، الذي يُركز على تعلم العينات الفعال في التعليم التعزيزي، بما في ذلك نمذجة المهام الاستنتاجية وتحسين اتخاذ القرار الذاتي للوكلاء، وإيجاد آليات لضمان توافق الذكاء الاصطناعي مع البشر. يشار إلى أن هذا البحث قد تم نشره على موقع arXiv تحت عنوان "تجاوز الإطار الماركوفي: استكشاف تأملي عبر التعلم التعزيزي المُتأقلم بيزاً لنمذجة الاستنتاج في النماذج اللغوية الكبيرة".

Related Links