HyperAIHyperAI
منذ 2 أشهر

تقييم اتباع التعليمات للنماذج اللغوية الكبيرة

Jeffrey Zhou; Tianjian Lu; Swaroop Mishra; Siddhartha Brahma; Sujoy Basu; Yi Luan; Denny Zhou; Le Hou
تقييم اتباع التعليمات للنماذج اللغوية الكبيرة
الملخص

إحدى القدرات الأساسية لـ نماذج اللغات الكبيرة (LLMs) هي اتباع التعليمات اللغوية الطبيعية. ومع ذلك، فإن تقييم هذه القدرات ليس معياريًا: التقييم البشري باهظ الثمن، بطيء، ولا يمكن إعادته بشكل موضوعي، بينما قد يكون التقييم الآلي القائم على نماذج اللغات الكبيرة متحيزًا أو محدودًا بسبب قدرة النموذج المقيم. لتجاوز هذه المشكلات، نقدم نظام تقييم اتباع التعليمات (IFEval) للنماذج اللغوية الكبيرة. يعتبر IFEval معيار تقييم بسيط وسهل الإعادة. يركز على مجموعة من "التعليمات القابلة للتحقق" مثل "كتابة أكثر من 400 كلمة" و"ذكر كلمة المفتاح الذكاء الاصطناعي ثلاث مرات على الأقل". حددنا 25 نوعًا من هذه التعليمات القابلة للتحقق وبنينا حوالي 500 دعوة (prompt)، تحتوي كل منها على واحدة أو أكثر من التعليمات القابلة للتحقق. نعرض نتائج تقييم لنمودجين لغويين كبيرين متوفرين في السوق بشكل واسع. يمكن العثور على كودنا ومعلوماتنا في https://github.com/google-research/google-research/tree/master/instruction_following_eval

تقييم اتباع التعليمات للنماذج اللغوية الكبيرة | أحدث الأوراق البحثية | HyperAI