HyperAI超神经

باحثون يكشفون أن تدريب مفسري الرموز يتأثر بقدرات النموذج ويؤكدون على أهمية دمج الحسابات الرمزية في الأنظمة الذكية في تطور حديث، قاد الباحث الصيني شين يونغتشاو، وهو طالب دكتوراه في جامعة هارفارد الأمريكية وخريج جامعة العلوم والتكنولوجيا الصينية، فريقًا بحثيًا لتدريب نماذج Qwen-3B/7B/14B باستخدام تقنيتين: التحسين الدقيق المشرف (SFT) والتحسين النسبي للسياسة الجماعية (GRPO). تم تدريب هذه النماذج على 144 مهمة تتطلب الاستدلال والتخطيط، حيث كان بإمكان النموذج استخدام مفسري الرموز عدة مرات لمساعدته في العمليات المنطقية. هذه المهام تحتوي على عناصر من الحسابات الرمزية، لكن النموذج كان عليه أن يتعلم بنفسه كيفية اختيار أفضل الأدوات بين النص والاستدلال الرمزي. اكتشف الفريق البحثي أن تدريب مفسري الرموز يتأثر بشكل كبير بقدرات النموذج الأساسي. على سبيل المثال، عندما يتم تدريب بعض النماذج بكثافة على الاستدلال النصي، فإن قدرتها على إنشاء الرموز البرمجية تنخفض. هذه المشكلة قد لا تظهر بوضوح في اختبارات Leetcode المحددة، حيث تتعلق بقدرات النموذج في تحويل المشكلات المجردة إلى رموز برمجية أو حسابات رمزية. هذا يشبه العديد من المشاكل الحياتية التي تتطلب تفكيرًا عميقًا لتوصيفها كمسائل رمزية. التنوع في المهام كان تحديًا آخر. بينما يسهل تدريب نظام تفسير الرموز على مهمة واحدة، يصعب على النموذج التكيف مع مجموعة متنوعة من المهام. في بعض الحالات، تفضيلات الاستراتيجيات بين المهام تكون متعاكسة. لذلك، اعتمد الفريق على التحسين الدقيق المشرف (SFT) كجزء أساسي من العملية، معتبرين أنه أكثر فعالية من التعلم التعزيزي وحده، والذي نجح في مهام الرياضيات والاسترجاع ولكن ليس في هذه السياقات المعقدة. يشدد شين يونغتشاو على أن الأنظمة الذكية المستقبلية القائمة على النماذج الكبيرة ستضطر إلى دمج الحسابات الرمزية في العديد من المهام. هذه الفكرة تشبه وجهة نظر العديد من الباحثين في مجال الروبوتات الذين يرون أن "مستقبل النماذج ليس من الرؤية واللغة إلى الحركة، بل من الرؤية واللغة إلى التحكم". يمكن توقع أن يكون أول تطبيق لهذه الأفكار في بيئات افتراضية مثل تخطيط الرحلات والسفر، مهام الويب، وحل المشكلات العلمية. حتى في المهام التي لا تتطلب حسابات رمزية، قد يكون هناك حاجة إلى توليد رموز برمجية لتحقيق تصورات بصرية، مما يجعل دمج مفسري الرموز في هذه السياقات ضروريًا. قبل هذا العمل، نشر الفريق بحثين آخرين: AutoTAMP في مؤتمر ICRA 2024 و TravelPlanner في مؤتمر NAACL 2025. استخدم هذان البحثان إطار عمل معد مسبقًا لدمج النماذج الكبيرة مع أدوات الحسابات الرمزية لحل مسائل الروبوتات وتخطيط الرحلات. رغم نجاح هذه الأطر في تحقيق نتائج جيدة، إلا أنها كانت محدودة في قدرتها على التعميم. على سبيل المثال، لكل مهمة متطلبات مختلفة، مما يعني أن الإطار المناسب يختلف من سياق لآخر. هذا يتعارض مع إحدى ميزات النماذج الكبيرة، وهي قدرتها الفائقة على التعميم. للتغلب على هذه التحديات، حاول الفريق تدريب النموذج ليصبح أكثر كفاءة في استخدام مفسري الرموز. تضمنت الجهود اتجاهين أساسيين: أولًا، تدريب نموذج مساعد لإرشاد النموذج الرئيسي، مما يتيح استخدام نموذج أصغر وأقل تعقيدًا للكشف عن أقصى قدرات النموذج الرئيسي. ثانيًا، تعديل النموذج الرئيسي مباشرة لتحسين قدرته على الاستدلال النصي والرمزي معًا، وهذا يتطلب نموذجًا أساسيًا قويًا. في البداية، اختار الفريق الاتجاه الأول ونمذجوا نظامًا اسمه CodeSteer، الذي مكّن GPT-4o من الاستفادة من توجيهات نموذج 8B لحل العديد من مهام الاستدلال والتخطيط باستخدام الحسابات الرمزية. أدى هذا النظام إلى تحقيق نتائج أفضل من النماذج o1 و DeepSeek-R1 في العديد من المهام. في العمل الحالي R1-Code-Interpreter، اتبع الفريق الاتجاه الثاني، حيث قاموا بتعديل النموذج الرئيسي مباشرة لتحسين قدرته على استخدام مفسري الرموز. نُشر هذا البحث في موقع arXiv تحت عنوان "R1-Code-Interpreter: تدريب النماذج اللغوية الكبيرة على الاستدلال باستخدام الرموز عبر التعلم المشرف والتعزيزي". يعتقد شين يونغتشاو أن النماذج المستقبلية يجب أن تكون قادرة على اختيار ودمج ثلاث طرق بحرية وسلاسة: 1. توليد الإجابات مباشرة من خلال الاستدلال النصي أو إرسال إشارات تحكم في حالة الروبوتات. 2. استدعاء أدوات خارجية (tool use). 3. توليد رموز برمجية لخلق أدوات مخصصة. في المستقبل، يخطط شين لاستكشاف طرق تجمع بين هذه الطرق الثلاث لتحسين أداء النماذج في المهام العملية وتحقق فكرة التوافق بينها.

باحثون يكشفون عن تحديات تدريب مُحَكِّم الكود ويقترحون دمج الحساب الرمزي في النماذج الذكية

Related Links