HyperAIHyperAI
منذ 18 أيام

CompassVerifier: مُحقِّق موحّد وقوي لتقييم نماذج اللغة الكبيرة وتقدير النتائج

Shudong Liu, Hongwei Liu, Junnan Liu, Linchen Xiao, Songyang Gao, Chengqi Lyu, Yuzhe Gu, Wenwei Zhang, Derek F. Wong, Songyang Zhang, Kai Chen
CompassVerifier: مُحقِّق موحّد وقوي لتقييم نماذج اللغة الكبيرة وتقدير النتائج
الملخص

إن التحقق من الإجابات يُعد أمرًا بالغ الأهمية ليس فقط لتقييم النماذج اللغوية الكبيرة (LLMs) من خلال مطابقة إخراجها غير المهيكل مع الإجابات القياسية، بل يُستخدم أيضًا كنموذج مكافأة لتوجيه تحسين هذه النماذج. تعتمد معظم أطر التقييم على مطابقة منظمة أو توظيف نماذج لغوية كبرى عامة للتحقق من الإجابات، مما يتطلب تخصيصًا واسعًا ومتكررًا لقواعد التعبيرات العادية (regex) أو لنصوص التقييم. لا تزال هناك قيود جوهرية مزمنة في الأساليب الحالية: أولًا، غياب معايير شاملة تُقيّم بشكل منهجي قدرات التحقق عبر مختلف النماذج اللغوية الكبيرة؛ ثانيًا، مرحلة النضج المبكرة لتطوير نماذج التحقق، حيث تعاني الأساليب الحالية من نقص في المتانة اللازمة لمعالجة الحالات الحدية المعقدة، وكذلك من ضعف القدرة على التعميم عبر مجالات مختلفة. في هذا العمل، نطور نموذج التحقق الخفيف والدقيق والقوي المعروف بـ CompassVerifier، والذي يُستخدم للتقييم وتقديم مكافآت النتائج. ويُظهر هذا النموذج كفاءة متعددة المجالات تمتد من الرياضيات والمعرفة إلى مهام الاستدلال المتنوعة، مع القدرة على معالجة أنواع مختلفة من الإجابات، بما في ذلك المسائل الفرعية المتعددة والصيغ والإجابات التسلسلية، إلى جانب فعاليته في اكتشاف الاستجابات غير الطبيعية أو غير الصالحة. كما نقدّم معيار التقييم VerifierBench، الذي يتكون من مخرجات نماذج مجمعة من مصادر بيانات متعددة، وتم تعزيزه من خلال تحليل يدوي لأنماط الأخطاء الوظيفية (metaerror patterns) لتحسين أداء CompassVerifier. نتوقع أن يسهم CompassVerifier وVerifierBench في تطوير عمليات التحقق من الإجابات، وتطوير بروتوكولات التقييم، وبخاصة أبحاث التعلم المعزز. يمكن الوصول إلى الكود والبيانات من خلال الرابط التالي: https://github.com/open-compass/CompassVerifier.

CompassVerifier: مُحقِّق موحّد وقوي لتقييم نماذج اللغة الكبيرة وتقدير النتائج | أحدث الأوراق البحثية | HyperAI