VerifyBench: نظام معياري منهجي لتقييم مدققي الاستدلال عبر المجالات

تُعتمد النماذج اللغوية الكبيرة (LLMs) بشكل متزايد على التعلم التعزيزي (RL) لتعزيز قدراتها الاستدلالية من خلال الردود. أحد التحديات الحرجة هو التحقق من اتساق الردود التي تولدها النماذج مع الإجابات المرجعية، نظرًا لأن هذه الردود غالبًا ما تكون طويلة ومتنوعة ودقيقة. يعاني مدققو القواعد من التعقيد، مما يؤدي إلى استخدام مدققي النماذج. ومع ذلك، فإن المدققين المتخصصين يفتقدون المرونة، بينما يمكن أن تكون الأحكام الصادرة عن النماذج اللغوية الكبيرة العامة غير متسقة. تركز البحوث الحالية بشكل أساسي على بناء مدققات أفضل، ولكن لا يزال هناك نقص في تقييم نظامي لأداء أنواع مختلفة من المدققات عبر المجالات، مما يحد بشدة من تطوير موثوق للتعلم التعزيزي بجائزة قابلة للتحقق (RLVR). لمعالجة هذا الأمر، نقترح VerifyBench--معيار شامل عبر المجالات لتقييم المدققات بشكل نظامي. نقوم ببناء 4,000 سؤال على مستوى الخبراء تغطي الرياضيات والفيزياء والكيمياء والأحياء. يتم توفير إجابات مرجعية وإجابات متنوعة لكل سؤال. يتم ضمان موثوقية التقييم من خلال عملية تعليق صارمة تقوم بها فريق خبراء متعدد التخصصات. نصمم إطارًا تجريبيًا رباعي الأبعاد للمقارنة الشاملة بين حدود أداء المدققات المتخصصة والنماذج اللغوية الكبيرة العامة تحت ظروف مركبة تتضمن الإجابات المستخرجة مقابل الردود الكاملة، والإخراج القصير مقابل الطويل. كشف تقييمنا عن بعض التنازلات الأساسية في المدققات: بينما تحقق المدققات المتخصصة دقة رائدة، فإنها تعاني من عيوب في الاسترجاع؛ أما النماذج العامة فتظهر شمولية أقوى ولكن دقة غير مستقرة. وأكثر أهميةً، اكتشفنا حساسية عالية للمدققات لهيكل الإدخال وحدود جوهرية في التعميم عبر المجالات، مما يقدم رؤى حاسمة حول العقبات التي تواجه تقنية المدققات الحالية.