HyperAIHyperAI

Command Palette

Search for a command to run...

دراسة منهجية وتقييم شامل لـ ChatGPT على مجموعات بيانات معيارية

Md Tahmid Rahman Laskar M Saiful Bari Mizanur Rahman Md Amran Hossen Bhuiyan Shafiq Joty Jimmy Xiangji Huang

الملخص

أدى تطور النماذج اللغوية الكبيرة (LLMs) مثل ChatGPT إلى جذب انتباه واسع في الفترة الأخيرة. ومع ذلك، لا يزال تقييم أدائها على مجموعات البيانات الأكاديمية القياسية غير مكتمل، وذلك بسبب الصعوبة المرتبطة بتقييم النواتج التوليدية التي تُنتجها هذه النماذج مقارنةً بالحقائق المحددة (ground truth). في هذا البحث، نهدف إلى تقديم تقييم شامل لأداء ChatGPT على مجموعات بيانات أكاديمية متنوعة، تغطي مهامًا مثل الإجابة على الأسئلة، وتلخيص النصوص، وإنشاء الشيفرات البرمجية، والاستدلال المشترك، وحل المسائل الرياضية، والترجمة الآلية، وكشف التحيز، والاعتبارات الأخلاقية. بشكل خاص، قمنا بتقييم ChatGPT على 140 مهمة، وتحليل 255 ألف رد تولّدها في هذه المجموعات. وهذا يجعل عملنا الأكبر من نوعه في تقييم ChatGPT ضمن معايير معالجة اللغة الطبيعية (NLP). باختصار، يهدف هذا الدراسة إلى التحقق من نقاط القوة والضعف في ChatGPT عبر مهام متنوعة، وتقديم رؤى تُسهم في توجيه الأبحاث المستقبلية التي تعتمد على النماذج اللغوية الكبيرة. كما نُبلغ عن قدرة جديدة ظهرت حديثًا، وهي القدرة على اتباع تعليمات متعددة الاستفسارات، والتي لاحظناها بشكل أساسي في ChatGPT ونماذج أخرى مُعدّلة بالتعليمات (instruction-tuned models). ويُظهر تقييمنا الواسع أن ChatGPT، رغم قدرته على أداء مجموعة واسعة من المهام، وقد يحقق أداءً مُبهرًا في بعض مجموعات البيانات القياسية، إلا أنه لا يزال بعيدًا عن القدرة على حل العديد من المهام الصعبة بشكل موثوق. وبتقديم تقييم شامل لأداء ChatGPT عبر مهام متعددة في مجال معالجة اللغة الطبيعية، يُعد هذا البحث خطوة أساسية نحو توظيف نماذج مشابهة لـ ChatGPT بشكل مستهدف في التطبيقات الواقعية.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp