تقييم اتباع التعليمات للنماذج اللغوية الكبيرة

إحدى القدرات الأساسية لـ نماذج اللغات الكبيرة (LLMs) هي اتباع التعليمات اللغوية الطبيعية. ومع ذلك، فإن تقييم هذه القدرات ليس معياريًا: التقييم البشري باهظ الثمن، بطيء، ولا يمكن إعادته بشكل موضوعي، بينما قد يكون التقييم الآلي القائم على نماذج اللغات الكبيرة متحيزًا أو محدودًا بسبب قدرة النموذج المقيم. لتجاوز هذه المشكلات، نقدم نظام تقييم اتباع التعليمات (IFEval) للنماذج اللغوية الكبيرة. يعتبر IFEval معيار تقييم بسيط وسهل الإعادة. يركز على مجموعة من "التعليمات القابلة للتحقق" مثل "كتابة أكثر من 400 كلمة" و"ذكر كلمة المفتاح الذكاء الاصطناعي ثلاث مرات على الأقل". حددنا 25 نوعًا من هذه التعليمات القابلة للتحقق وبنينا حوالي 500 دعوة (prompt)، تحتوي كل منها على واحدة أو أكثر من التعليمات القابلة للتحقق. نعرض نتائج تقييم لنمودجين لغويين كبيرين متوفرين في السوق بشكل واسع. يمكن العثور على كودنا ومعلوماتنا في https://github.com/google-research/google-research/tree/master/instruction_following_eval