HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 2 أشهر

تقييم نماذج اللغة على الأسئلة غير المحلولة

Fan Nie Ken Ziyu Liu Zihao Wang Rui Sun Wei Liu Weijia Shi et al

تقييم نماذج اللغة على الأسئلة غير المحلولة

الملخص

تُشكّل المعايير المعيارية (benchmarks) حجر الزاوية في تقدم البحث في مجال الذكاء الاصطناعي. ويجب أن تكون المعايير المفيدة مُركّبة من صعوبة وواقعية معًا: إذ ينبغي أن تُشكّل تحديًا للنماذج المتطورة، في الوقت الذي تعكس فيه أيضًا الاستخدامات الحقيقية في العالم الحقيقي. ومع ذلك، تواجه النماذج الحالية تناقضًا بين الصعوبة والواقعية: فمعاير الاختبار من نوع "الامتحانات" غالبًا ما تُصمم بشكل اصطناعي لزيادة صعوبتها، مع قيمتها الواقعية المحدودة، في حين أن المعايير المستندة إلى التفاعل الفعلي للمستخدمين تميل غالبًا إلى التركيز على المشكلات السهلة والمتكررة. في هذه الدراسة، نستكشف نموذجًا جذريًا مختلفًا: تقييم النماذج على الأسئلة غير المحلولة. بدلًا من معيار ثابت يتم تقييمه مرة واحدة، نقوم بجمع أسئلة غير محلولة، ونُقيّم النماذج بشكل غير متزامن على مر الزمن، باستخدام عمليات فحص مدعومة من مُقيّمين وتأكيد جماعي من المجتمع. نقدّم UQ، وهي منصة تجريبية تضم 500 سؤالًا صعبًا ومتنوعًا، مستمدة من منصة Stack Exchange، وتغطي موضوعات متنوعة تتراوح بين نظرية الحاسوب والرياضيات والخيال العلمي والتاريخ، وتُختبر من خلالها قدرات متعددة مثل الاستدلال، والدقة، وتنقل المتصفح. يتمتع UQ بخصائص الصعوبة والواقعية بشكل طبيعي: إذ إن الأسئلة غير المحلولة غالبًا ما تكون صعبة، وتنشأ بشكل طبيعي عندما يسعى البشر للحصول على إجابات، وبالتالي فإن حلها يُحدث قيمة واقعية مباشرة. تتمثل مساهماتنا في ثلاثة جوانب رئيسية: (1) مجموعة بيانات UQ وطريقة جمعها التي تدمج بين مرشحات قواعدية، ومحكمين مبنيين على نماذج لغوية كبيرة (LLM)، ومراجعة بشرية، بهدف ضمان جودة الأسئلة (مثل وضوحها وصعوبتها)؛ (2) مُقيّمات UQ، وهي استراتيجيات تقييم مركبة تستفيد من الفجوة بين المُولِّد (generator) والمحكم (validator) لتوفير إشارات تقييم وفرز مسبق للحلول المرشحة قبل عرضها على المراجعين البشريين؛ (3) منصة UQ، وهي منصة مفتوحة تُتيح للمختصين التحقق جماعيًا من الأسئلة والحلول. وقد نجح النموذج الأفضل في اجتياز عملية التحقق من UQ في نسبة 15% فقط من الأسئلة، كما أن التحقق البشري الأولي قد أدى بالفعل إلى تحديد إجابات صحيحة بين الحلول التي نجحت في الامتحان. يُمثّل UQ طريقًا جديدًا لتقييم النماذج المتطورة على التحديات الواقعية المفتوحة، حيث يُعد النجاح في حلها دافعًا لتوسيع حدود المعرفة البشرية.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
تقييم نماذج اللغة على الأسئلة غير المحلولة | الأوراق البحثية | HyperAI