منذ 8 أشهر

الملخص

إحدى القدرات الأساسية لـ نماذج اللغات الكبيرة (LLMs) هي اتباع التعليمات اللغوية الطبيعية. ومع ذلك، فإن تقييم هذه القدرات ليس معياريًا: التقييم البشري باهظ الثمن، بطيء، ولا يمكن إعادته بشكل موضوعي، بينما قد يكون التقييم الآلي القائم على نماذج اللغات الكبيرة متحيزًا أو محدودًا بسبب قدرة النموذج المقيم. لتجاوز هذه المشكلات، نقدم نظام تقييم اتباع التعليمات (IFEval) للنماذج اللغوية الكبيرة. يعتبر IFEval معيار تقييم بسيط وسهل الإعادة. يركز على مجموعة من "التعليمات القابلة للتحقق" مثل "كتابة أكثر من 400 كلمة" و"ذكر كلمة المفتاح الذكاء الاصطناعي ثلاث مرات على الأقل". حددنا 25 نوعًا من هذه التعليمات القابلة للتحقق وبنينا حوالي 500 دعوة (prompt)، تحتوي كل منها على واحدة أو أكثر من التعليمات القابلة للتحقق. نعرض نتائج تقييم لنمودجين لغويين كبيرين متوفرين في السوق بشكل واسع. يمكن العثور على كودنا ومعلوماتنا في https://github.com/google-research/google-research/tree/master/instruction_following_eval

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار