HyperAIHyperAI

Command Palette

Search for a command to run...

الفجوة بين النماذج التجريبية والمنفتحة في مجال النماذج اللغوية الكبيرة للرياضيات الأوليمبية تضيق بشكل ملحوظ

أظهرت تجربة مشتركة بين AIMO وOpenAI تقلصًا ملحوظًا في الفجوة بين النماذج التجارية والمنفتحة المصدر في حل مسائل الرياضيات على مستوى أولمبياد العالم. تم تقييم النموذج غير المُعلن منه، o3-preview، على 50 مسألة رياضية جديدة وغير مُعلنة، تم إعدادها خصيصًا لاختبار التفكير التماثلي على مستوى أولمبياد الرياضيات الوطني والدولي، مع ضمان عدم احتواء أي من النماذج على هذه المسائل مسبقًا. حقق النموذج التجاري o3-preview أداءً استثنائيًا، حيث حل 47/50 مسألة في إصداره عالي الحساب (مع احتساب الإجابة الأولى فقط)، و50/50 عند احتساب الإجابة الثانية، ما يُشير إلى قدرته على الوصول إلى الحل الصحيح في معظم الحالات. حتى الإصدار المنخفض الحساب (low-compute) حل 43/50، ما يفوق أداء الفريق الفائز في مسابقة AIMO2، NemoSkills، الذي حقق 33/50 على منصة Kaggle. كما أن نموذج o3-preview تفوق على جميع النماذج المفتوحة المصدر في المسابقة، بما في ذلك النموذج الثاني، imagination-research، الذي حل 31/50. لكن الأهم أن التقييم المُوسّع لنموذج NemoSkills وimagination-research على جهاز مُجهز بـ8x H100 GPU (بما يعادل 640GB ذاكرة) أظهر تحسنًا ملحوظًا: حقق كلا النموذجين 35/50، متجاوزين أداءهما السابق على Kaggle. هذا يدل على أن القيود التقنية في المنصة (مثل محدودية الذاكرة والوقت) كانت تحدّ من أداء النماذج، وأن أداء النماذج المفتوحة المصدر يمكن أن يقترب كثيرًا من النماذج التجارية عند تزويدها بموارد كافية. في المقابل، أظهر "المجموع المركب" لجميع النماذج المشاركة في AIMO2 (AIMO2-combined)، الذي يُحسب بناءً على أفضل إجابة من كل نموذج مُقدم، نتائج مدهشة: 47/50، أي نفس أداء o3-preview عالي الحساب. هذا يشير إلى أن جمع مخرجات النماذج المختلفة يُمكن أن يُنتج أداءً قويًا جدًا، خاصة عند دمجها مع نموذج تقييم (reward model) يختار الحل الصحيح من بين العديد من الاحتمالات. رغم هذا التقدم، ظهرت بعض التحديات. مسألة "RUNNER" لم تُحل من قبل أي إصدار من o3-preview (حتى عالي الحساب إلا كإجابة ثانية)، بينما حلها NemoSkills وعدد من المشاركين في Kaggle. كما أن مسألة "EIGHTS" تم حلها فقط من قبل o3-preview، وليس من قبل أي من النماذج المصنفة ضمن الخمسة الأوائل. هذه الفروقات تشير إلى اختلافات في نمط التفكير أو في تدريب النماذج. من الناحية الاقتصادية، يُقدّر أن تكلفة تقييم o3-preview بحجم 50 مسألة تبلغ أقل من 1 دولار لكل مسألة، وهي مقارنة جيدة مع تكلفة تشغيل نموذج مفتوح المصدر على جهاز مخصص. هذا يقلل من الفجوة من حيث التكلفة والفعالية، رغم أن النموذج التجاري لا يزال يتفوق في الأداء المطلق. في ختام التقييم، أشارت النتائج إلى أن النماذج المفتوحة المصدر، خصوصًا عند تحسينها بموارد كافية، تقترب بسرعة من النماذج التجارية. لكن الفجوة في التفكير المتقدم، خاصة في المسائل ذات الحلول المعقدة، لا تزال قائمة. ستُطلق AIMO3 في خريف 2025، بمستوى صعوبة أعلى، مركّزة على مسائل أولمبياد العالم، مع تحسينات في التنسيق وزيادة المكافآت، في خطوة لدفع حدود الذكاء الاصطناعي في الرياضيات.

الروابط ذات الصلة