الملخص

أدى تطور النماذج اللغوية الكبيرة (LLMs) مثل ChatGPT إلى جذب انتباه واسع في الفترة الأخيرة. ومع ذلك، لا يزال تقييم أدائها على مجموعات البيانات الأكاديمية القياسية غير مكتمل، وذلك بسبب الصعوبة المرتبطة بتقييم النواتج التوليدية التي تُنتجها هذه النماذج مقارنةً بالحقائق المحددة (ground truth). في هذا البحث، نهدف إلى تقديم تقييم شامل لأداء ChatGPT على مجموعات بيانات أكاديمية متنوعة، تغطي مهامًا مثل الإجابة على الأسئلة، وتلخيص النصوص، وإنشاء الشيفرات البرمجية، والاستدلال المشترك، وحل المسائل الرياضية، والترجمة الآلية، وكشف التحيز، والاعتبارات الأخلاقية. بشكل خاص، قمنا بتقييم ChatGPT على 140 مهمة، وتحليل 255 ألف رد تولّدها في هذه المجموعات. وهذا يجعل عملنا الأكبر من نوعه في تقييم ChatGPT ضمن معايير معالجة اللغة الطبيعية (NLP). باختصار، يهدف هذا الدراسة إلى التحقق من نقاط القوة والضعف في ChatGPT عبر مهام متنوعة، وتقديم رؤى تُسهم في توجيه الأبحاث المستقبلية التي تعتمد على النماذج اللغوية الكبيرة. كما نُبلغ عن قدرة جديدة ظهرت حديثًا، وهي القدرة على اتباع تعليمات متعددة الاستفسارات، والتي لاحظناها بشكل أساسي في ChatGPT ونماذج أخرى مُعدّلة بالتعليمات (instruction-tuned models). ويُظهر تقييمنا الواسع أن ChatGPT، رغم قدرته على أداء مجموعة واسعة من المهام، وقد يحقق أداءً مُبهرًا في بعض مجموعات البيانات القياسية، إلا أنه لا يزال بعيدًا عن القدرة على حل العديد من المهام الصعبة بشكل موثوق. وبتقديم تقييم شامل لأداء ChatGPT عبر مهام متعددة في مجال معالجة اللغة الطبيعية، يُعد هذا البحث خطوة أساسية نحو توظيف نماذج مشابهة لـ ChatGPT بشكل مستهدف في التطبيقات الواقعية.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

دراسة منهجية وتقييم شامل لـ ChatGPT على مجموعات بيانات معيارية

Md Tahmid Rahman Laskar M Saiful Bari Mizanur Rahman Md Amran Hossen Bhuiyan Shafiq Joty Jimmy Xiangji Huang

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

دراسة منهجية وتقييم شامل لـ ChatGPT على مجموعات بيانات معيارية

Md Tahmid Rahman Laskar M Saiful Bari Mizanur Rahman Md Amran Hossen Bhuiyan Shafiq Joty Jimmy Xiangji Huang

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

دراسة منهجية وتقييم شامل لـ ChatGPT على مجموعات بيانات معيارية

Md Tahmid Rahman Laskar M Saiful Bari Mizanur Rahman Md Amran Hossen Bhuiyan Shafiq Joty Jimmy Xiangji Huang

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters