HyperAIHyperAI

Command Palette

Search for a command to run...

تقييم نماذج اللغة AI أصبح أكثر فعالية وكفاءة --- طريقة جديدة تسريع تقييمات نموذج اللغة AI، وأكثر عدالة واقل تكلفة

مع ظهور إصدارات جديدة من نماذج الذكاء الصناعي اللغوية بمعدل متزايد، أصبح من الصعب والمرهق ماليًا إثبات أن هذه النماذج الجديدة أفضل من سابقاتها تحسين أداء النماذج الجديدة يتطلب خضوعها لاختبارات مرجعية تتكون من مئات الآلاف من الأسئلة يتم تخزينها في بنوك الأسئلة ويتعين على البشر مراجعة الإجابات مما يضيف وقتًا وتكلفة للعملية القيود العملية تجعل من المستحيل طرح كل السؤال على كل النموذج لذلك يقوم المطورون باختيار مجموعة فرعية من الأسئلة مما يعرضهم لخطر تقدير التحسينات بشكل مبالغ فيه بناءً على أسئلة سهلة باحثو جامعة ستانفورد قد قدموا الآن طريقة فعالة من حيث التكلفة لإجراء هذه التقييمات في ورقة بحثية جديدة تم نشرها في المؤتمر الدولي للتعلم الآلي قام الباحثون بقيادة الأستاذ المساعد سانمي كويجو في قسم علوم الحاسب بكلية الهندسة بجامعة ستانفورد بتطبيق مفهوم قديم من التعليم يعرف بنظرية الاستجابة للعنصر التي تأخذ في الاعتبار صعوبة الأسئلة عند تقييم الممتحنين يشبه كويجو هذا الأسلوب بكيفية عمل الاختبارات القياسية مثل اختبار الـ SAT وغيرها من الاختبارات التكيفية لكل إجابة صحيحة أو خاطئة تغير السؤال الذي يليها قام الباحثون باستخدام نماذج اللغة لتحليل الأسئلة وتقييمها على أساس الصعوبة مما خفض التكاليف بمقدار النصف وفي بعض الحالات بنسبة تزيد على ٨٠٪ هذا التقييم على الصعوبة يتيح للباحثين مقارنة الأداء النسبي لنموذجين بطريقة أكثر عدلًا لبناء بنك أسئلة كبير ومتنوع ومنضبط بطريقة فعالة من حيث التكلفة استخدم الباحثون قدرات التوليد الاصطناعية لإنشاء مولد أسئلة يمكن تنقيته لأي مستوى من الصعوبة يرغب فيه هذا يساعد في تلقائية تحديث بنوك الأسئلة والتخلص من الأسئلة «الملوثة» من القاعدة البيانات مع تصميم أفضل للأسئلة يقول المؤلفون إن الآخرين في المجال يمكنهم إجراء تقييمات أداء أفضل باستخدام مجموعة أقل بكثير من الاستفسارات هذه الطريقة أسرع وأكثر عدلًا وأقل تكلفة تطبيق هذا النهج يعمل أيضًا عبر مجالات المعرفة المختلفة من الطب والرياضيات إلى القانون قام كويجو باختبار النظام ضد ٢٢ مجموعة بيانات و١٧٢ نموذج لغة ووجد أنه يمكنه التكيف بسهولة مع النماذج والأسئلة الجديدة تمكن النهج الجديد من رسم التحولات الدقيقة في سلامة نموذج GPT ٣ ٥ على مر الزمن حيث تحسن أداءه في البداية ثم تراجع في عدة إصدارات تم اختبارها في عام ٢٠٢٣ تعد سلامة نموذج اللغة مقياسًا لقوة النموذج ضد التلاعب في البيانات والهجمات المعادية والاستغلال وغيرها من المخاطر في حين كانت تقييمات النماذج اللغوية بشكل موثوق به أمرًا مكلفًا وغير متسق في السابق فإن نهج نظرية الاستجابة للعنصر الجديد يجعل التقييم الدقيق والقابل للتطوير والتكيف ضمن المتناول بالنسبة للمطورين يعني ذلك تشخيص أفضل وتقييمات أداء أكثر دقة وبالنسبة للمستخدمين يعني ذلك تقييمات نماذج أكثر عدلًا وشفافية «وبالنسبة للجميع الآخرين» قال كويجو «سيعني ذلك تقدم أسرع وثقة أكبر في أدوات الذكاء الصناعي المتغيرة بسرعة»

الروابط ذات الصلة