الملخص

إن التحقق من الإجابات يُعد أمرًا بالغ الأهمية ليس فقط لتقييم النماذج اللغوية الكبيرة (LLMs) من خلال مطابقة إخراجها غير المهيكل مع الإجابات القياسية، بل يُستخدم أيضًا كنموذج مكافأة لتوجيه تحسين هذه النماذج. تعتمد معظم أطر التقييم على مطابقة منظمة أو توظيف نماذج لغوية كبرى عامة للتحقق من الإجابات، مما يتطلب تخصيصًا واسعًا ومتكررًا لقواعد التعبيرات العادية (regex) أو لنصوص التقييم. لا تزال هناك قيود جوهرية مزمنة في الأساليب الحالية: أولًا، غياب معايير شاملة تُقيّم بشكل منهجي قدرات التحقق عبر مختلف النماذج اللغوية الكبيرة؛ ثانيًا، مرحلة النضج المبكرة لتطوير نماذج التحقق، حيث تعاني الأساليب الحالية من نقص في المتانة اللازمة لمعالجة الحالات الحدية المعقدة، وكذلك من ضعف القدرة على التعميم عبر مجالات مختلفة. في هذا العمل، نطور نموذج التحقق الخفيف والدقيق والقوي المعروف بـ CompassVerifier، والذي يُستخدم للتقييم وتقديم مكافآت النتائج. ويُظهر هذا النموذج كفاءة متعددة المجالات تمتد من الرياضيات والمعرفة إلى مهام الاستدلال المتنوعة، مع القدرة على معالجة أنواع مختلفة من الإجابات، بما في ذلك المسائل الفرعية المتعددة والصيغ والإجابات التسلسلية، إلى جانب فعاليته في اكتشاف الاستجابات غير الطبيعية أو غير الصالحة. كما نقدّم معيار التقييم VerifierBench، الذي يتكون من مخرجات نماذج مجمعة من مصادر بيانات متعددة، وتم تعزيزه من خلال تحليل يدوي لأنماط الأخطاء الوظيفية (metaerror patterns) لتحسين أداء CompassVerifier. نتوقع أن يسهم CompassVerifier وVerifierBench في تطوير عمليات التحقق من الإجابات، وتطوير بروتوكولات التقييم، وبخاصة أبحاث التعلم المعزز. يمكن الوصول إلى الكود والبيانات من خلال الرابط التالي: https://github.com/open-compass/CompassVerifier.

ملف PDF المصدر عرض الكود

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

CompassVerifier: مُحقِّق موحّد وقوي لتقييم نماذج اللغة الكبيرة وتقدير النتائج

Shudong Liu Hongwei Liu Junnan Liu Linchen Xiao Songyang Gao Chengqi Lyu Yuzhe Gu Wenwei Zhang Derek F. Wong Songyang Zhang1 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

CompassVerifier: مُحقِّق موحّد وقوي لتقييم نماذج اللغة الكبيرة وتقدير النتائج

Shudong Liu Hongwei Liu Junnan Liu Linchen Xiao Songyang Gao Chengqi Lyu Yuzhe Gu Wenwei Zhang Derek F. Wong Songyang Zhang1 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

CompassVerifier: مُحقِّق موحّد وقوي لتقييم نماذج اللغة الكبيرة وتقدير النتائج

Shudong Liu Hongwei Liu Junnan Liu Linchen Xiao Songyang Gao Chengqi Lyu Yuzhe Gu Wenwei Zhang Derek F. Wong Songyang Zhang1 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Shudong Liu Hongwei Liu Junnan Liu Linchen Xiao Songyang Gao Chengqi Lyu Yuzhe Gu Wenwei Zhang Derek F. Wong Songyang Zhang

Shudong Liu Hongwei Liu Junnan Liu Linchen Xiao Songyang Gao Chengqi Lyu Yuzhe Gu Wenwei Zhang Derek F. Wong Songyang Zhang

Shudong Liu Hongwei Liu Junnan Liu Linchen Xiao Songyang Gao Chengqi Lyu Yuzhe Gu Wenwei Zhang Derek F. Wong Songyang Zhang