HyperAIHyperAI
منذ 2 أشهر

قياس الفهم اللغوي المتعدد المهام الضخم

Dan Hendrycks; Collin Burns; Steven Basart; Andy Zou; Mantas Mazeika; Dawn Song; Jacob Steinhardt
قياس الفهم اللغوي المتعدد المهام الضخم
الملخص

نقترح اختبارًا جديدًا لقياس دقة نموذج النص في أداء المهام المتعددة. يغطي هذا الاختبار 57 مهمة تشمل الرياضيات الأساسية، والتاريخ الأمريكي، وعلوم الحاسوب، والقانون وغيرها. لتحقيق دقة عالية في هذا الاختبار، يجب أن تمتلك النماذج معرفة واسعة بالعالم وقدرة على حل المشكلات. وجدنا أن معظم النماذج الحديثة لديها دقة قريبة من نسبة الصدفة العشوائية، بينما يتحسن نموذج GPT-3 الأكبر بكثير عن نسبة الصدفة العشوائية بمتوسط ​​19.8 نقطة مئوية (تقريبًا 20 نقطة مئوية). ومع ذلك، فإن أفضل النماذج لا تزال بحاجة إلى تحسينات كبيرة في كل واحدة من الـ 57 مهمة قبل أن تتمكن من الوصول إلى مستوى الدقة الخبير. كما أن أداء النماذج غير متوازن بشكل كبير، ويحدث غالبًا أنها لا تعرف متى تكون خاطئة. الأمر أسوأ عندما يكون أداؤها قريبًا من الصدفة العشوائية في بعض المواضيع الاجتماعية المهمة مثل الأخلاق والقانون. من خلال تقييم شامل لمدى عمق ومدى اتساع فهم النموذج الأكاديمي والمهني، يمكن استخدام اختبارنا لتحليل النماذج عبر العديد من المهام ولتحديد القصور الهام.请注意,这里“GPT-3”是专有名词,通常在阿拉伯语中保留英文原名。其他术语如“multitask accuracy”(多任务准确性)和“random-chance accuracy”(随机机会准确性)也采用了通用的阿拉伯语译法。希望这段翻译符合您的要求。如果有任何进一步的修改或调整,请随时告知。

قياس الفهم اللغوي المتعدد المهام الضخم | أحدث الأوراق البحثية | HyperAI