رمز واحد لخداع النموذج اللغوي الكبير كقاضٍ

تُستخدم نماذج المكافآت التوليدية (والمعرفة أيضًا بـ LLMs-as-judges)، التي تعتمد على النماذج اللغوية الكبيرة (LLMs) لتقييم جودة الإجابات، بشكل متزايد في تعلم التعزيز مع مكافآت قابلة للتحقق (RLVR). وغالبًا ما يُفضلها على مقاييس القواعد الصارمة، خاصة في المهام المعقدة التي تتضمن إجابات حرة الشكل. في هذا الإطار، يتم عادةً تحفيز نموذج LLM للمقارنة بين إجابة مرشحة وإجابة المرجع الحقيقية وتعيين مكافأة ثنائية تشير إلى صحة الإجابة. رغم البساطة الظاهرية لهذه المهمة المقارنة، فقد اكتشفنا أن نماذج المكافآت التوليدية تظهر نقاط ضعف مفاجئة تجاه التلاعب السطحي: يمكن أن يؤدي الرموز غير الكلامية (مثل ":" أو ".") أو مقدمات الاستدلال مثل "عملية التفكير:" و"دعونا نحل هذه المشكلة خطوة بخطوة" إلى منح مكافآت إيجابية خاطئة. أظهرنا أن هذا الضعف شائع بين النماذج اللغوية الكبيرة والبيانات والمحفزات، مما يشكل تهديدًا جادًا للنظريات الخوارزمية الأساسية التي تعتمد على نماذج المكافآت التوليدية، مثل تصميم العينات المرفوضة، وتحسين التفضيلات، وتعلم التعزيز مع مكافآت قابلة للتحقق (RLVR). لمعالجة هذه المشكلة، قدمنا استراتيجية بسيطة ومعتدلة للتضخيم البيانات ودرّبنا نموذج مكافآت توليدي جديد يتمتع بالمتانة بشكل كبير. تؤكد نتائجنا الحاجة الملحة لتطوير طرق تقييم أكثر ثقة تعتمد على النماذج اللغوية الكبيرة. سنقوم بإطلاق نموذج المكافأة المتين ذو المجال العام ومجموعة بيانات التدريب الصناعية الخاصة به على https://huggingface.co/sarosavo/Master-RM و https://huggingface.co/datasets/sarosavo/Master-RM.