HyperAIHyperAI
منذ شهر واحد

REST: اختبار نماذج الاستدلال الكبيرة من خلال طرح عدة مشاكل في وقت واحد

Zhuoshi Pan, Qizhi Pei, Yu Li, Qiyao Sun, Zinan Tang, H. Vicky Zhao, Conghui He, Lijun Wu
REST: اختبار نماذج الاستدلال الكبيرة من خلال طرح عدة مشاكل في وقت واحد
الملخص

حققت النماذج المنطقية الكبيرة (LRMs) الحديثة تقدماً ملحوظاً في مقاييس الأداء المحددة للمهام، ومع ذلك تظل طرق تقييمها مقيدة ب范式孤立的问题解决方法. المقاييس الحالية تعتمد بشكل أساسي على اختبارات متسلسلة لتقييم الاستدلال حول سؤال واحد، مما يؤدي إلى حدود حرجة: (1) ضعف حماية البيانات وقلة التحدي (مثلاً، يحقق DeepSeek-R1 نسبة 97.0% في اختبار MATH500)، مما يفرض الحاجة إلى إنشاء أسئلة جديدة باستمرار وبجهد بشري كبير، (2) فشل في تقييم النماذج تحت ضغط السياقات المتعددة، وهو متطلب رئيسي للنشر في العالم الحقيقي.لسد هذه الفجوة، نقدم REST (تقييم الاستدلال من خلال الاختبار المتزامن)، وهو إطار للاختبار الشامل يعرض النماذج المنطقية الكبيرة لمجموعة من المسائل بشكل متزامن. بالإضافة إلى الاستدلال الأساسي، يقوم REST بتقييم قدرات عديدة لم يتم اختبارها بشكل كافٍ: تخصيص الأولويات السياقية، مقاومة التداخل بين المسائل المختلفة، وإدارة العبء المعرفي الديناميكي. كشفت نتائج تقييمنا عن عدة اكتشافات ملحوظة: حتى النماذج الرائدة مثل DeepSeek-R1 تتدهور أداءها بشكل كبير عند إجراء الاختبارات الشاملة. من الجدير بالذكر أن REST أظهر قوة تمييزية أكبر من المقاييس الحالية، مما كشف عن فروقات أداء واضحة بين النماذج التي تحقق أداءً مشابهاً وقريباً من السقف في التقييمات التي تعتمد على سؤال واحد.من خلال تحليلنا ظهرت بعض الرؤى الآلية الرئيسية: (1) فخ "التفكير الزائد" هو عامِل حاسم يساهم في انخفاض الأداء؛ (2) النماذج التي تم تدريبها باستخدام تقنية "long2short" تحتفظ بدقة أكبر لأدائها عند حل مسألة واحدة ضمن إطار REST، وتتفوق على النماذج التي تم تدريبها بالطرق القياسية. هذه النتائج تثبت أن REST هي نموذج تقييمي مستقبلي وكفء من حيث التكلفة يعكس بشكل أفضل متطلبات الاستدلال في العالم الحقيقي ويقلل الاعتماد على التعليقات البشرية المستمرة.注释:- 在阿拉伯语中,“范式孤立的问题解决方法”通常表达为“محدوديات في نماذج حل المشكلات المعزولة”,这里为了保持上下文的一致性和流畅性,进行了适当的调整。- “long2short” 技术在阿拉伯语中没有通用的翻译,因此保留了英文原词。以下是调整后的版本:حققت النماذج المنطقية الكبيرة (LRMs) الحديثة تقدماً ملحوظاً في مقاييس الأداء المحددة للمهام، ومع ذلك تظل طرق تقييمها مقيدة بمحدوديات في نماذج حل المشكلات المعزولة. المقاييس الحالية تعتمد بشكل أساسي على اختبارات متسلسلة لتقييم الاستدلال حول سؤال واحد، مما يؤدي إلى حدود حرجة: (1) ضعف حماية البيانات وقلة التحدي (مثلاً، يحقق DeepSeek-R1 نسبة 97.0% في اختبار MATH500)، مما يفرض الحاجة إلى إنشاء أسئلة جديدة باستمرار وبجهد بشري كبير، (2) فشل في تقييم النماذج تحت ضغط السياقات المتعددة، وهو متطلب رئيسي للنشر في العالم الحقيقي.لسد هذه الفجوة، نقدم REST (تقييم الاستدلال من خلال الاختبار المتزامن)، وهو إطار للاختبار الشامل يعرض النماذج المنطقية الكبيرة لمجموعة من المسائل بشكل متزامن. بالإضافة إلى الاستدلال الأساسي، يقوم REST بتقييم قدرات عديدة لم يتم اختبارها بشكل كافٍ: تخصيص الأولويات السياقية، مقاومة التداخل بين المسائل المختلفة، وإدارة العبء المعرفي الديناميكي. كشفت نتائج تقييمنا عن عدة اكتشافات ملحوظة: حتى النماذج الرائدة مثل DeepSeek-R1 تتدهور أداءها بشكل كبير عند إجراء الاختبارات الشاملة. من الجدير بالذكر أن REST أظهر قوة تمييزية أكبر من المقاييس الحالية، مما كشف عن فروقات أداء واضحة بين النمازل التي تحقق أداءً مشابهاً وقريباً من السقف في التقييمات التي تعتمد على سؤال واحد.من خلال تحليلنا ظهرت بعض الرؤى الآلية الرئيسية: (1) فخ "التفكير الزائد" هو عامِل حاسم يساهم في انخفاض الأداء؛ (2) النماذج التي تم تدريبها باستخدام تقنية "long2short" تحتفظ بدقة أكبر لأدائها عند حل مسألة واحدة ضمن إطار REST، وتتفوق على النمازل التي تم تدريبها بالطرق القياسية. هذه النتائج تثبت أن REST هي نموذج تقييمي مستقبلي وكفء من حيث التكلفة يعكس بشكل أفضل متطلبات الاستدلالة في العالم الحقيقي ويقلل الاعتماد على التعليقات البشرية المستمرة.