HyperAIHyperAI

Command Palette

Search for a command to run...

قياس الفهم اللغوي المتعدد المهام الضخم

Dan Hendrycks Collin Burns Steven Basart Andy Zou Mantas Mazeika Dawn Song Jacob Steinhardt

الملخص

نقترح اختبارًا جديدًا لقياس دقة نموذج النص في أداء المهام المتعددة. يغطي هذا الاختبار 57 مهمة تشمل الرياضيات الأساسية، والتاريخ الأمريكي، وعلوم الحاسوب، والقانون وغيرها. لتحقيق دقة عالية في هذا الاختبار، يجب أن تمتلك النماذج معرفة واسعة بالعالم وقدرة على حل المشكلات. وجدنا أن معظم النماذج الحديثة لديها دقة قريبة من نسبة الصدفة العشوائية، بينما يتحسن نموذج GPT-3 الأكبر بكثير عن نسبة الصدفة العشوائية بمتوسط ​​19.8 نقطة مئوية (تقريبًا 20 نقطة مئوية). ومع ذلك، فإن أفضل النماذج لا تزال بحاجة إلى تحسينات كبيرة في كل واحدة من الـ 57 مهمة قبل أن تتمكن من الوصول إلى مستوى الدقة الخبير. كما أن أداء النماذج غير متوازن بشكل كبير، ويحدث غالبًا أنها لا تعرف متى تكون خاطئة. الأمر أسوأ عندما يكون أداؤها قريبًا من الصدفة العشوائية في بعض المواضيع الاجتماعية المهمة مثل الأخلاق والقانون. من خلال تقييم شامل لمدى عمق ومدى اتساع فهم النموذج الأكاديمي والمهني، يمكن استخدام اختبارنا لتحليل النماذج عبر العديد من المهام ولتحديد القصور الهام.请注意,这里“GPT-3”是专有名词,通常在阿拉伯语中保留英文原名。其他术语如“multitask accuracy”(多任务准确性)和“random-chance accuracy”(随机机会准确性)也采用了通用的阿拉伯语译法。希望这段翻译符合您的要求。如果有任何进一步的修改或调整,请随时告知。


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp