HyperAIHyperAI

Command Palette

Search for a command to run...

رمز واحد لخداع النموذج اللغوي الكبير كقاضٍ

Yulai Zhao Haolin Liu Dian Yu S. Y. Kung Haitao Mi Dong Yu

الملخص

تُستخدم نماذج المكافآت التوليدية (والمعرفة أيضًا بـ LLMs-as-judges)، التي تعتمد على النماذج اللغوية الكبيرة (LLMs) لتقييم جودة الإجابات، بشكل متزايد في تعلم التعزيز مع مكافآت قابلة للتحقق (RLVR). وغالبًا ما يُفضلها على مقاييس القواعد الصارمة، خاصة في المهام المعقدة التي تتضمن إجابات حرة الشكل. في هذا الإطار، يتم عادةً تحفيز نموذج LLM للمقارنة بين إجابة مرشحة وإجابة المرجع الحقيقية وتعيين مكافأة ثنائية تشير إلى صحة الإجابة. رغم البساطة الظاهرية لهذه المهمة المقارنة، فقد اكتشفنا أن نماذج المكافآت التوليدية تظهر نقاط ضعف مفاجئة تجاه التلاعب السطحي: يمكن أن يؤدي الرموز غير الكلامية (مثل ":" أو ".") أو مقدمات الاستدلال مثل "عملية التفكير:" و"دعونا نحل هذه المشكلة خطوة بخطوة" إلى منح مكافآت إيجابية خاطئة. أظهرنا أن هذا الضعف شائع بين النماذج اللغوية الكبيرة والبيانات والمحفزات، مما يشكل تهديدًا جادًا للنظريات الخوارزمية الأساسية التي تعتمد على نماذج المكافآت التوليدية، مثل تصميم العينات المرفوضة، وتحسين التفضيلات، وتعلم التعزيز مع مكافآت قابلة للتحقق (RLVR). لمعالجة هذه المشكلة، قدمنا استراتيجية بسيطة ومعتدلة للتضخيم البيانات ودرّبنا نموذج مكافآت توليدي جديد يتمتع بالمتانة بشكل كبير. تؤكد نتائجنا الحاجة الملحة لتطوير طرق تقييم أكثر ثقة تعتمد على النماذج اللغوية الكبيرة. سنقوم بإطلاق نموذج المكافأة المتين ذو المجال العام ومجموعة بيانات التدريب الصناعية الخاصة به على https://huggingface.co/sarosavo/Master-RM و https://huggingface.co/datasets/sarosavo/Master-RM.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
رمز واحد لخداع النموذج اللغوي الكبير كقاضٍ | مستندات | HyperAI