علماء يكتشفون أن تدريب مترجمات الكود متأثر بقدرة النموذج ويقترحون دمج الحسابات الرمزية في الأنظمة الذكية
قام الباحث الصيني شين يونغتشاو، وهو طالب دكتوراه في جامعة هارفارد الأمريكية، وزملاؤه في فريق البحث، باستخدام نماذج مختلفة من الذكاء الصناعي Qwen-3B/7B/14B كنقطة بداية لمهمة تعليمية جديدة تهدف إلى تحسين قدرة الأنظمة على استخدام المترجم الرمزي (Code Interpreter) في مهام متعددة تتطلب التفكير والتحليل. تم تدريب النموذج على 144 مهمة تتضمن عناصر حسابية رمزية، حيث كان للنموذج حرية استخدام المترجم الرمزي عدة مرات للمساعدة في عملية التفكير. خلال الدراسة، اكتشف الفريق أن قدرة النموذج على استخدام المترجم الرمزي تتوقف على قوة النموذج نفسه. فبعد تدريب مكثف على التفكير النصي، كانت هناك مؤشرات على أن بعض النماذج قد فقدت قدرتها على إنتاج الشفرات البرمجية. هذا الانخفاض في القدرة ليس واضحًا في مقاييس الكود الخاصة مثل Leetcode، حيث يتم اختبار قدرة النموذج على تحويل المشاكل المجردة إلى كود أو حسابات رمزية. في الحياة العملية، يواجه العديد من المشاكل تحديات مشابهة، إذ يتطلب الأمر تفكيرًا عميقًا لتحويلها إلى مشاكل حسابية يمكن حلها بواسطة الرموز. واحد من التحديات الرئيسية الأخرى هو تنوع المهام. بينما من السهل تدريب نظام للمهمة الواحدة، فإن تدريب نموذج واحد للتعامل مع مجموعة متنوعة من المهام يمثل تحديًا أكبر. العديد من المهام تتطلب استراتيجيات مختلفة، وأحيانًا متضاربة، مما يجعل من الصعب على النموذج اتخاذ القرارات المناسبة بمفرده. هذا الاكتشاف يختلف عن النتائج التي توصل إليها الباحثون في مجالات مثل الرياضيات والبحث، حيث أثبت تعليم التقوية فعاليته في تلك المهام. لذلك، أشار شين يونغتشاو إلى أهمية مرحلة التعلم المشرف عليها (SFT) في تحقيق أفضل النتائج. من المتوقع أن تكون التطبيقات الأولى لهذه التقنية في العوالم الافتراضية، مثل تخطيط الرحلات ومهام الويب وحل المشكلات العلمية. حتى المهام التي لا تتطلب حسابات رمزية، مثل توليد رسومات توضيحية ضمن عملية المهمة، تحتاج أيضًا إلى دمج المترجم الرمزي في التدريب. قبل هذا العمل، قام الفريق البحثي بتقديم بحثين آخرين، الأول نُشر في مؤتمر الروبوتات والأنظمة الآلية الدولي (ICRA) عام 2024 بعنوان "AutoTAMP"، والثاني في مؤتمر اللغة الطبيعية ومعالجة الحوسبة الشمالية الأمريكية (NAACL) عام 2025 بعنوان "TravelPlanner". في هذين البحثين، تم استخدام إطار عمل مصمم مسبقًا وخوارزميات لدمج نماذج الذكاء الصناعي مع أدوات الحساب الرمزي لحل مشاكل في مجال الروبوتيكا وتخطيط الرحلات، مما أدى إلى نتائج ممتازة ولكنهما كانا محدودي المرونة. القدرة على تطبيق هذه النماذج على مهام متنوعة هي أحد أسباب شعبية النماذج الكبيرة حاليًا. لذلك، كان التركيز على كيفية تمكين هذه النماذج من استخدام الحساب الرمزي دون فقدان مرونتها. في عام 2024، أثناء تدريبه في معهد مايكروسوفت للأبحاث، فكر شين يونغتشاو في استخدام الشفرات البرمجية كوسيلة لدمج مختلف الخوارزميات والمتحكمات والمحركات التخطيطية. هذا لأن الحساب الرمزي يقوم على استخدام القواعد واللغات المبرمجة مسبقًا، مثل اللغات البرمجية والمحركات التحكمية والبحثية. بالإضافة إلى ذلك، تتميز النماذج الحديثة بقدرتها الطبيعية على برمجة الكود بعد التدريب. بناءً على هذه الفكرة، توصل الفريق إلى أن النماذج الكبيرة ستصبح أكثر فعالية إذا تمكنت من استخدام المترجم الرمزي بشكل طبيعي ومرونة، وبشكل متزامن مع التفكير النصي. هذا النهج يحافظ على المرونة، حيث يقوم النموذج باختيار ما إذا كان سيستخدم الكود وما نوع الخوارزمية التي سيختارها بشكل مستقل. لفحص هذه الفرضية، قام الفريق بإجراء تجارب باستخدام مترجم الرموز الحالي من OpenAI، واكتشف العديد من القضايا. على سبيل المثال، في بعض المهام، كان من الأفضل استخدام الشفرات البرمجية بدلاً من التفكير النصي، ولكن النموذج كان يختار التفكير النصي، مما يؤدي إلى أخطاء. كما أن الشفرات البرمجية المولدة غالبًا ما تحتوي على أجزاء غير فعالة ولا تستغل الحسابات الرمزية بشكل كامل. في ضوء هذه النتائج، تم نشر بحث بعنوان "توجيه نماذج اللغة الكبيرة بين تنفيذ الكود والتفكير النصي" في مؤتمر التمثيلات التعلمية الدولية (ICLR) عام 2025. بعد ذلك، حاول الفريق تدريب النموذج على استخدام المترجم الرمزي بكفاءة أعلى. تضمنت هذه المحاولات تدريب نموذج مساعد إضافي لتعزيز قدرة النموذج الرئيسي، والذي تم تسميته بـ "CodeSteer". أظهر هذا النموذج تحسينات كبيرة في استخدام الحسابات الرمزية، وتفوق في العديد من المهام على نماذج أخرى مثل o1 وDeepSeek-R1. في النهاية، تم نشر بحث "R1-Code-Interpreter: تدريب نماذج اللغة الكبيرة على التفكير باستخدام الكود عبر التعلم المشرف عليه وتعلم التقوية" على موقع arXiv. يعتقد شين يونغتشاو أن نماذج الذكاء الصناعي المستقبلية يجب أن تكون قادرة على اختيار واستخدام ثلاثة أنماط مختلفة في مهام التفكير والتخطيط: إنتاج الإجابات مباشرة، استدعاء أدوات خارجية، وإنشاء شفرات برمجية لتطوير أدوات مخصصة. يخطط الفريق لاستكشاف طرق لدمج هذه الأنماط الثلاثة وتطبيقها على مهام عملية لاختبار فعاليتها.