HyperAIHyperAI

Command Palette

Search for a command to run...

تقييم اتباع التعليمات للنماذج اللغوية الكبيرة

Jeffrey Zhou Tianjian Lu Swaroop Mishra Siddhartha Brahma Sujoy Basu Yi Luan Denny Zhou Le Hou

الملخص

إحدى القدرات الأساسية لـ نماذج اللغات الكبيرة (LLMs) هي اتباع التعليمات اللغوية الطبيعية. ومع ذلك، فإن تقييم هذه القدرات ليس معياريًا: التقييم البشري باهظ الثمن، بطيء، ولا يمكن إعادته بشكل موضوعي، بينما قد يكون التقييم الآلي القائم على نماذج اللغات الكبيرة متحيزًا أو محدودًا بسبب قدرة النموذج المقيم. لتجاوز هذه المشكلات، نقدم نظام تقييم اتباع التعليمات (IFEval) للنماذج اللغوية الكبيرة. يعتبر IFEval معيار تقييم بسيط وسهل الإعادة. يركز على مجموعة من "التعليمات القابلة للتحقق" مثل "كتابة أكثر من 400 كلمة" و"ذكر كلمة المفتاح الذكاء الاصطناعي ثلاث مرات على الأقل". حددنا 25 نوعًا من هذه التعليمات القابلة للتحقق وبنينا حوالي 500 دعوة (prompt)، تحتوي كل منها على واحدة أو أكثر من التعليمات القابلة للتحقق. نعرض نتائج تقييم لنمودجين لغويين كبيرين متوفرين في السوق بشكل واسع. يمكن العثور على كودنا ومعلوماتنا في https://github.com/google-research/google-research/tree/master/instruction_following_eval


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp