HyperAIHyperAI

Command Palette

Search for a command to run...

CompassVerifier: مُحقِّق موحّد وقوي لتقييم نماذج اللغة الكبيرة وتقدير النتائج

الملخص

إن التحقق من الإجابات يُعد أمرًا بالغ الأهمية ليس فقط لتقييم النماذج اللغوية الكبيرة (LLMs) من خلال مطابقة إخراجها غير المهيكل مع الإجابات القياسية، بل يُستخدم أيضًا كنموذج مكافأة لتوجيه تحسين هذه النماذج. تعتمد معظم أطر التقييم على مطابقة منظمة أو توظيف نماذج لغوية كبرى عامة للتحقق من الإجابات، مما يتطلب تخصيصًا واسعًا ومتكررًا لقواعد التعبيرات العادية (regex) أو لنصوص التقييم. لا تزال هناك قيود جوهرية مزمنة في الأساليب الحالية: أولًا، غياب معايير شاملة تُقيّم بشكل منهجي قدرات التحقق عبر مختلف النماذج اللغوية الكبيرة؛ ثانيًا، مرحلة النضج المبكرة لتطوير نماذج التحقق، حيث تعاني الأساليب الحالية من نقص في المتانة اللازمة لمعالجة الحالات الحدية المعقدة، وكذلك من ضعف القدرة على التعميم عبر مجالات مختلفة. في هذا العمل، نطور نموذج التحقق الخفيف والدقيق والقوي المعروف بـ CompassVerifier، والذي يُستخدم للتقييم وتقديم مكافآت النتائج. ويُظهر هذا النموذج كفاءة متعددة المجالات تمتد من الرياضيات والمعرفة إلى مهام الاستدلال المتنوعة، مع القدرة على معالجة أنواع مختلفة من الإجابات، بما في ذلك المسائل الفرعية المتعددة والصيغ والإجابات التسلسلية، إلى جانب فعاليته في اكتشاف الاستجابات غير الطبيعية أو غير الصالحة. كما نقدّم معيار التقييم VerifierBench، الذي يتكون من مخرجات نماذج مجمعة من مصادر بيانات متعددة، وتم تعزيزه من خلال تحليل يدوي لأنماط الأخطاء الوظيفية (metaerror patterns) لتحسين أداء CompassVerifier. نتوقع أن يسهم CompassVerifier وVerifierBench في تطوير عمليات التحقق من الإجابات، وتطوير بروتوكولات التقييم، وبخاصة أبحاث التعلم المعزز. يمكن الوصول إلى الكود والبيانات من خلال الرابط التالي: https://github.com/open-compass/CompassVerifier.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
CompassVerifier: مُحقِّق موحّد وقوي لتقييم نماذج اللغة الكبيرة وتقدير النتائج | مستندات | HyperAI