HyperAI

فهم اللغة متعدد المهام الشامل (MMLU)

فهم اللغة متعدد المهام الضخم (MMLU) هو تقييم شامل.يهدف إلى قياس دقة المهام المتعددة لنماذج النصوص من خلال تقييم النماذج في إعدادات اللقطات الصفرية والقليلة. الأوراق والنتائج ذات الصلةقياس فهم اللغة متعدد المهام"تم اقتراحه في عام 2021 وتم نشره في ICLR 2021.

يوفر MMLU طريقة لاختبار ومقارنة نماذج اللغة المختلفة، مثل OpenAI GPT-4 وMistral 7b وGoogle Gemini وAnthropic Claude 2. ويغطي 57 مهمة تتراوح من الرياضيات الأساسية إلى تاريخ الولايات المتحدة إلى علوم الكمبيوتر والقانون، مما يتطلب من النماذج إظهار قاعدة المعرفة الواسعة والقدرة على حل المشكلات.

التفاصيل الرئيسية لمعيار MMLU

  • مجموعات التدريب والتحققتحتوي مجموعة البيانات على 15,908 سؤالاً، مقسمة إلى مجموعة تطوير مكونة من عدد قليل من اللقطات، ومجموعة تحقق، ومجموعة اختبار. تحتوي مجموعة التطوير ذات اللقطات القليلة على 5 أسئلة لكل موضوع، ويمكن استخدام مجموعة التحقق لتحديد المعلمات الفائقة وتتكون من 1540 سؤالاً، وتحتوي مجموعة الاختبار على 14079 سؤالاً.
  • أداء النموذج:تظهر النتائج الأولية لـ MMLU أن LLM الأصغر يعمل على مستوى عشوائي من حيث الدقة (دقة 25%)، بينما يعمل GPT-3 الأكبر (175 مليار معلمة) بشكل أفضل بدقة 43.9% للقطات القليلة ودقة 37.7% للقطات الصفرية. بحلول عام 2023، حقق GPT-4 دقة 5 طلقات بلغت 86.4%، وحقق Google Gemini دقة 5 طلقات بلغت 83.7%. ومع ذلك، فإن أفضل النماذج لا تزال بحاجة إلى تحسينات كبيرة قبل الوصول إلى دقة مستوى الخبراء البشريين (89.8%).
  • مواضيع صعبة:تؤدي النماذج، وخاصة نماذج اللغة الكبيرة (LLMs)، أداءً ضعيفًا في المهام التي تتطلب قدرًا كبيرًا من الحساب (مثل الفيزياء والرياضيات) والموضوعات الإنسانية (مثل الأخلاق والقانون).

الميزات الرئيسية لمعيار MMLU

يقيس معيار MMLU أداء نماذج اللغة في مجموعة متنوعة من المهام، والتي تغطي التخصصات مثل العلوم والتكنولوجيا والهندسة والرياضيات والعلوم الإنسانية والعلوم الاجتماعية. تتضمن بعض الميزات الرئيسية لمعيار MMLU ما يلي:

  • 57 موضوعًا:يغطي المعيار 57 موضوعًا في مجموعة واسعة من المجالات، بدءًا من الرياضيات الأساسية وحتى المستويات المهنية المتقدمة في مجالات مثل القانون والأخلاق.
  • الحبيبات والاتساع:يختبر اختبار MMLU المعرفة العالمية ومهارات حل المشكلات، مما يجعله مثاليًا لتحديد فهم النموذج لمجموعة متنوعة من المواضيع.
  • دقة المهام المتعددة:يقيس الاختبار دقة المهام المتعددة للنموذج من خلال تغطية مجموعة متنوعة من المهام، مما يضمن تقييمًا شاملاً للمعرفة الأكاديمية والمهنية للنموذج.
  • لا حاجة لمجموعات تدريب كبيرة:على عكس بعض المعايير الأخرى، لا يتطلب MMLU مجموعة تدريب كبيرة. وبدلاً من ذلك، يفترض أن النموذج قد اكتسب بالفعل المعرفة اللازمة من خلال قراءة مجموعة كبيرة ومتنوعة من النصوص، وهي العملية التي يطلق عليها غالبًا اسم التدريب المسبق.

تجعل هذه الميزات الرئيسية من معيار MMLU أداة قيمة لتقييم أداء نماذج اللغة وقدرتها على فهم اللغة وتوليدها في مجموعة متنوعة من السياقات.

كيف تعمل MMLU

يعمل معيار MMLU من خلال تقييم أداء نماذج اللغة في مجموعة متنوعة من المهام. يقيس هذا المقياس قدرة النموذج على فهم اللغة وتوليدها في سياقات مختلفة، بما في ذلك الترجمة الآلية، وتلخيص النصوص، وتحليل المشاعر.

النتيجة النهائية لـMMLU هي متوسط النتائج التي تم الحصول عليها في كل مهمة، مما يوفر مقياسًا شاملاً للأداء العام للنموذج.

جامعة ماريلاند للطب المزايا

هناك العديد من الفوائد لمعيار MMLU، وأهم ثلاث منها هي:

  1. إنه يوفر طريقة كمية لمقارنة أداء نماذج اللغة المختلفة.
  2. فهو فعال حسابيًا وسهل الفهم.
  3. وهو يأخذ في الاعتبار قدرة النموذج على فهم اللغة وتوليدها في سياقات مختلفة ويمكنه التقاط جوانب معينة من بنية اللغة.

حدود MMLU

يحتوي معيار MMLU أيضًا على بعض المشكلات التي تجعله معيارًا غير مثالي:

  1. السياق الرئيسي مفقود من السؤال:بعض الأسئلة في معيار MMLU تفتقر إلى السياق، مما يجعل من الصعب أو المستحيل الإجابة عليها بشكل صحيح، وقد تكون هذه الأسئلة بسبب أخطاء النسخ واللصق.
  2. غموض مجموعة الإجابات:يحتوي هذا المعيار على أسئلة ذات مجموعات إجابات غامضة قد تؤدي إلى ارتباك وتقييم غير صحيح لأداء النموذج.
  3. مجموعة إجابة خاطئة:تحتوي بعض الأسئلة في معيار MMLU على مجموعات إجابات غير صحيحة، مما قد يؤدي إلى نتائج تقييم مضللة.
  4. الحساسية للإشارات:تعتبر وحدة MMLU حساسة للغاية للإشارة الدقيقة المستخدمة، مما قد يؤدي إلى اختلاف الأداء بشكل كبير اعتمادًا على الإشارة.

مراجع

【1】https://klu.ai/glossary/mmlu-eval