HyperAIHyperAI

Command Palette

Search for a command to run...

VerifyBench: نظام معياري منهجي لتقييم مدققي الاستدلال عبر المجالات

Xuzhao Li Xuchen Li Shiyu Hu Yongzhen Guo Wentao Zhang

الملخص

تُعتمد النماذج اللغوية الكبيرة (LLMs) بشكل متزايد على التعلم التعزيزي (RL) لتعزيز قدراتها الاستدلالية من خلال الردود. أحد التحديات الحرجة هو التحقق من اتساق الردود التي تولدها النماذج مع الإجابات المرجعية، نظرًا لأن هذه الردود غالبًا ما تكون طويلة ومتنوعة ودقيقة. يعاني مدققو القواعد من التعقيد، مما يؤدي إلى استخدام مدققي النماذج. ومع ذلك، فإن المدققين المتخصصين يفتقدون المرونة، بينما يمكن أن تكون الأحكام الصادرة عن النماذج اللغوية الكبيرة العامة غير متسقة. تركز البحوث الحالية بشكل أساسي على بناء مدققات أفضل، ولكن لا يزال هناك نقص في تقييم نظامي لأداء أنواع مختلفة من المدققات عبر المجالات، مما يحد بشدة من تطوير موثوق للتعلم التعزيزي بجائزة قابلة للتحقق (RLVR). لمعالجة هذا الأمر، نقترح VerifyBench--معيار شامل عبر المجالات لتقييم المدققات بشكل نظامي. نقوم ببناء 4,000 سؤال على مستوى الخبراء تغطي الرياضيات والفيزياء والكيمياء والأحياء. يتم توفير إجابات مرجعية وإجابات متنوعة لكل سؤال. يتم ضمان موثوقية التقييم من خلال عملية تعليق صارمة تقوم بها فريق خبراء متعدد التخصصات. نصمم إطارًا تجريبيًا رباعي الأبعاد للمقارنة الشاملة بين حدود أداء المدققات المتخصصة والنماذج اللغوية الكبيرة العامة تحت ظروف مركبة تتضمن الإجابات المستخرجة مقابل الردود الكاملة، والإخراج القصير مقابل الطويل. كشف تقييمنا عن بعض التنازلات الأساسية في المدققات: بينما تحقق المدققات المتخصصة دقة رائدة، فإنها تعاني من عيوب في الاسترجاع؛ أما النماذج العامة فتظهر شمولية أقوى ولكن دقة غير مستقرة. وأكثر أهميةً، اكتشفنا حساسية عالية للمدققات لهيكل الإدخال وحدود جوهرية في التعميم عبر المجالات، مما يقدم رؤى حاسمة حول العقبات التي تواجه تقنية المدققات الحالية.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp