HyperAIHyperAI

Command Palette

Search for a command to run...

استعراض لمقاييس النماذج اللغوية الكبيرة

الملخص

في السنوات الأخيرة، ومع التطور السريع في عمق واتساع قدرات النماذج اللغوية الكبيرة، ظهرت مجموعة متزايدة من معايير التقييم المقابلة. وباعتبارها أداة تقييم كمية لأداء النموذج، لا تُعد المعايير أداة أساسية لقياس القدرات فقط، بل تمثل أيضًا عنصرًا محوريًا في توجيه اتجاه تطوير النماذج وتعزيز الابتكار التكنولوجي. نقدم في هذه الدراسة مراجعة منهجية لأول مرة للحالة الراهنة والتطورات الحالية في مجال معايير تقييم النماذج اللغوية الكبيرة، حيث قمنا بتصنيف 283 معيارًا مميزًا إلى ثلاث فئات رئيسية: القدرات العامة، والقدرات المتخصصة حسب المجال، والقدرات المستهدفة. تغطي معايير القدرات العامة جوانب مثل اللغويات الأساسية، والمعرفة، والاستدلال؛ بينما تركز معايير المجالات المتخصصة على مجالات مثل العلوم الطبيعية، والعلوم الإنسانية والاجتماعية، والتكنولوجيا الهندسية؛ أما معايير القدرات المستهدفة، فتُركّز على جوانب مثل المخاطر، والموثوقية، والوكالات (agents). ونُشير إلى أن المعايير الحالية تواجه مشكلات متعددة، منها تضخم النتائج الناتج عن تلوث البيانات، وتقييم غير عادل بسبب التحيزات الثقافية واللغوية، ونقص التقييم في مصداقية العملية وبيئات العمل الديناميكية، ونُقدّم نموذجًا مرجعيًا قابلًا للتطبيق لتصميم معايير مستقبلية مبتكرة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp