HyperAIHyperAI
منذ 17 أيام

دراسة منهجية وتقييم شامل لـ ChatGPT على مجموعات بيانات معيارية

Md Tahmid Rahman Laskar, M Saiful Bari, Mizanur Rahman, Md Amran Hossen Bhuiyan, Shafiq Joty, Jimmy Xiangji Huang
دراسة منهجية وتقييم شامل لـ ChatGPT على مجموعات بيانات معيارية
الملخص

أدى تطور النماذج اللغوية الكبيرة (LLMs) مثل ChatGPT إلى جذب انتباه واسع في الفترة الأخيرة. ومع ذلك، لا يزال تقييم أدائها على مجموعات البيانات الأكاديمية القياسية غير مكتمل، وذلك بسبب الصعوبة المرتبطة بتقييم النواتج التوليدية التي تُنتجها هذه النماذج مقارنةً بالحقائق المحددة (ground truth). في هذا البحث، نهدف إلى تقديم تقييم شامل لأداء ChatGPT على مجموعات بيانات أكاديمية متنوعة، تغطي مهامًا مثل الإجابة على الأسئلة، وتلخيص النصوص، وإنشاء الشيفرات البرمجية، والاستدلال المشترك، وحل المسائل الرياضية، والترجمة الآلية، وكشف التحيز، والاعتبارات الأخلاقية. بشكل خاص، قمنا بتقييم ChatGPT على 140 مهمة، وتحليل 255 ألف رد تولّدها في هذه المجموعات. وهذا يجعل عملنا الأكبر من نوعه في تقييم ChatGPT ضمن معايير معالجة اللغة الطبيعية (NLP). باختصار، يهدف هذا الدراسة إلى التحقق من نقاط القوة والضعف في ChatGPT عبر مهام متنوعة، وتقديم رؤى تُسهم في توجيه الأبحاث المستقبلية التي تعتمد على النماذج اللغوية الكبيرة. كما نُبلغ عن قدرة جديدة ظهرت حديثًا، وهي القدرة على اتباع تعليمات متعددة الاستفسارات، والتي لاحظناها بشكل أساسي في ChatGPT ونماذج أخرى مُعدّلة بالتعليمات (instruction-tuned models). ويُظهر تقييمنا الواسع أن ChatGPT، رغم قدرته على أداء مجموعة واسعة من المهام، وقد يحقق أداءً مُبهرًا في بعض مجموعات البيانات القياسية، إلا أنه لا يزال بعيدًا عن القدرة على حل العديد من المهام الصعبة بشكل موثوق. وبتقديم تقييم شامل لأداء ChatGPT عبر مهام متعددة في مجال معالجة اللغة الطبيعية، يُعد هذا البحث خطوة أساسية نحو توظيف نماذج مشابهة لـ ChatGPT بشكل مستهدف في التطبيقات الواقعية.