HyperAI
Back to Headlines

الذكاء الاصطناعي يجمع بين اللغة الطبيعية وأدوات الحساب لتحسين حل مسائل الرياضيات عبر نموذج "Agentic-R1"

منذ 8 أيام

أظهرت النماذج الحديثة التي تعتمد على التفكير التسلسلي الطويل (Long-CoT) أداءً متميزًا في حل المسائل الرياضية من خلال إنتاج مسارات تفكير تتضمن التحقق الذاتي والتطوير التدريجي. لكن النماذج المفتوحة المصدر من هذه الفئة تعتمد فقط على مسارات التفكير باللغة الطبيعية، مما يجعلها مكلفة حسابيًا وعرضة للأخطاء في غياب آليات التحقق. من ناحية أخرى، تقدم مناهج التفكير المدعوم بال أدوات مزيدًا من الكفاءة والموثوقية في الحسابات العددية الكبيرة، لكنها تواجه صعوبات في مواجهة المسائل المجردة أو المعقدة مفهوميًا. للتغلب على هذه التحديات، قام باحثون من جامعة كارنيجي ميلون بتطوير منهجية جديدة تسمى "DualDistill"، وهي إطار للاستخلاص يدمج مسارات التفكير من مدرسين مكملين لبناء نموذج طالب موحد. يعتمد هذا الإطار على معلم تفكير وآخر داعم للأدوات، مما سمح بتطوير نموذج يُسمى "Agentic-R1"، وهو قادر على اختيار الاستراتيجية الأنسب لكل نوع من المسائل بشكل ديناميكي. في المسائل الحسابية أو التي تتطلب خوارزميات، ينفذ Agentic-R1 أكوادًا، بينما يستخدم التفكير باللغة الطبيعية في المسائل المجردة. يتميز DualDistill بعملية تجميع المسارات، تليها عملية استخلاص ذاتي، مما يعزز قدرة النموذج على التعلم من مصادر متعددة. تم تطبيق الإطار على منصات مثل OpenHands، التي توفر مترجمات للكود، وDeepSeek-R1، الذي يعتمد على التفكير باللغة الطبيعية. وخلال التقييم، تم اختبار النموذج على مجموعات بيانات متعددة مثل DeepMath-L وCombinatorics300، ومقارنته بنموذجين أساسيين هما DeepSeek-R1-Distill وQwen-2.5-Instruct. أظهر النموذج Agentic-R1 تحسينات كبيرة في الأداء، حيث تفوق على نموذجين من نفس الحجم، أحدهما يركز على استخدام الأدوات والآخر على التفكير النصي فقط. أظهرت التحليلات النوعية أن Agentic-R1 يتمتع بPatterns ذكية في استخدام الأدوات، حيث يتم تفعيل أدوات تنفيذ الكود في 79.2% من المسائل المركبة في مجموعة Combinatorics300، بينما يقل هذا إلى 52.0% في مسائل AMC الأبسط. وتمكن النموذج من التعلم في استخدام الأدوات عبر التدريب المُشرف دون الحاجة إلى تعليمات صريحة، مما يعكس قدرته على تحقيق توازن بين الكفاءة الحسابية والدقة في التفكير. كما أن الإطار يُظهر مرونة كبيرة حتى عند العمل مع مدرسين غير مثاليين. فعلى سبيل المثال، حقق معلم الأدوات دقة تبلغ 48.4% في مجموعة Combinatorics300، لكن النموذج الطالب تحسن من 44.7% إلى 50.9%، متفوقًا على المعلم نفسه. باختصار، يُعتبر DualDistill منهجية فعالة لدمج مزايا التفكير باللغة الطبيعية مع استخدام الأدوات في حل المسائل الرياضية، من خلال استخلاص معرفة متكاملة من نموذجين مدرّبين. يتعلم النموذج Agentic-R1 اختيار الاستراتيجيات المناسبة بشكل ديناميكي، مما يسهم في تحسين الأداء في مختلف مهام التفكير الرياضي، حتى عند التدريب على مدرسين غير مثاليين. هذه الدراسة تفتح آفاقًا جديدة لتطوير نماذج ذكاء اصطناعي قادرة على دمج أنواع متعددة من الاستراتيجيات لتحسين دقة وفعالية التفكير.

Related Links