HyperAIHyperAI

Command Palette

Search for a command to run...

Console
منذ 3 أيام

PolyMath: تقييم التفكير الرياضي في السياقات متعددة اللغات

PolyMath: تقييم التفكير الرياضي في السياقات متعددة اللغات

الملخص

في هذه الورقة، نقدم "PolyMath"، وهو معيار متعدد اللغات للتفكير الرياضي يغطي 18 لغة ومستويات أربع من الصعوبة تتراوح من السهل إلى الصعب. يضمن هذا المعيار شمولية الصعوبة، وتنوعًا لغويًا، وترجمة عالية الجودة، مما يجعله معيارًا متعدد اللغات متميزًا للغاية في عصر النماذج اللغوية الكبيرة القائمة على التفكير. قمنا بتقييم شامل للنماذج اللغوية الكبيرة المتقدمة، ووجدنا أن حتى النموذجين Qwen-3-235B-A22B-Thinking وGemini-2.5-pro حققا فقط درجتين 54.6 و52.2 على المعيار، مع دقة تقارب 40% فقط في المستوى الأعلى من الصعوبة. من منظور لغوي، كشف المعيار عن عدة تحديات رئيسية تواجه النماذج اللغوية الكبيرة في التفكير متعدد اللغات: (1) تتفاوت أداء التفكير بشكل كبير بين اللغات بالنسبة للنماذج الحالية؛ (2) انعدام التماسك بين اللغة المدخلة واللغة المخرجة في النماذج القائمة على التفكير، والذي قد يكون مرتبطًا بالأداء؛ (3) تختلف طول عملية التفكير بشكل كبير حسب اللغة في النماذج الحالية. علاوة على ذلك، نُظهر أن التحكم في لغة المخرجات ضمن التعليمات يمكن أن يؤثر على أداء التفكير، خاصة في بعض اللغات ذات الموارد المحدودة، مما يشير إلى اتجاه واعد لتحسين القدرات متعددة اللغات في النماذج اللغوية الكبيرة.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
PolyMath: تقييم التفكير الرياضي في السياقات متعددة اللغات | الأوراق البحثية | HyperAI