اختبارات الأداء في لايبزيغ
في الفترة بين الأول من أبريل والخامس عشر من مايو 2026، انطلقت مبادرة بحثية علمية في معهد ماكس بلانك لعلوم الرياضيات في ليبتزغ بألمانيا، تحت عنوان ورشة معايير ليبتزغ. شارك في هذا المشروع إجمالاً 49 باحثاً رياضياتياً من مختلف المؤسسات العالمية، حيث اجرى 35 منهم أعمالهم بشكل متزامن خلال أيام الورشة المخصصة. هدفت المبادرة إلى تطوير مجموعة بيانات معيارية جديدة لقياس دقة وتطور النماذج اللغوية الكبيرة، وأسفر الجهد المتواصل عن إعداد مجموعة تضم 100 مسألة رياضية متقدمة من مستوى الأبحاث الأكاديمية، مصحوبة بإجابات مرجعية موثقة بدقة. خضعت المسائل لعملية تقييم منهجية على ثلاث مراحل متتالية. في المرحلة الأولى، قدمت خمسة نماذج لغوية رائدة محاولاتها الأولى لحل الأسئلة، حيث ظلت 41 مسألة دون حل. وفي المرحلة الثانية، تم تقييم ثلاثة نماذج من خلال تنفيذ 20 محاولة لكل منها، مما أسهم في خفض عدد المسائل غير المحلولة إلى 16. وانتهت المرحلة الثالثة بمحاولة ثلاثية من قبل نموذجين متقدمين متخصصين في الاستدلال العميق، ليقتصر العدد النهائي للأسئلة التي لم يحلها الذكاء الاصطناعي على مسألتين فقط. يعكس هذا المسار التنازلي في عدد المسائل غير المحلولة، وتيرة التطور السريع في قدرات النماذج على التعامل مع المنطق الرياضي المعقد متعدد المراحل. تم نشر الملف البحثي على منصة أرشيف الإلكتروني برقم 2606.05818، ويضم تحليلاً يمتد عبر تخصصات متعددة تشمل الذكاء الاصطناعي، والهندسة الجبرية، والتوافقيات، ونظرية التمثيل، مع إرفاق ملحق موسع يحتوي على البيانات الكاملة لأغراض التقييم المستقبلي.
