استعراض لمقاييس النماذج اللغوية الكبيرة

في السنوات الأخيرة، ومع التطور السريع في عمق واتساع قدرات النماذج اللغوية الكبيرة، ظهرت مجموعة متزايدة من معايير التقييم المقابلة. وباعتبارها أداة تقييم كمية لأداء النموذج، لا تُعد المعايير أداة أساسية لقياس القدرات فقط، بل تمثل أيضًا عنصرًا محوريًا في توجيه اتجاه تطوير النماذج وتعزيز الابتكار التكنولوجي. نقدم في هذه الدراسة مراجعة منهجية لأول مرة للحالة الراهنة والتطورات الحالية في مجال معايير تقييم النماذج اللغوية الكبيرة، حيث قمنا بتصنيف 283 معيارًا مميزًا إلى ثلاث فئات رئيسية: القدرات العامة، والقدرات المتخصصة حسب المجال، والقدرات المستهدفة. تغطي معايير القدرات العامة جوانب مثل اللغويات الأساسية، والمعرفة، والاستدلال؛ بينما تركز معايير المجالات المتخصصة على مجالات مثل العلوم الطبيعية، والعلوم الإنسانية والاجتماعية، والتكنولوجيا الهندسية؛ أما معايير القدرات المستهدفة، فتُركّز على جوانب مثل المخاطر، والموثوقية، والوكالات (agents). ونُشير إلى أن المعايير الحالية تواجه مشكلات متعددة، منها تضخم النتائج الناتج عن تلوث البيانات، وتقييم غير عادل بسبب التحيزات الثقافية واللغوية، ونقص التقييم في مصداقية العملية وبيئات العمل الديناميكية، ونُقدّم نموذجًا مرجعيًا قابلًا للتطبيق لتصميم معايير مستقبلية مبتكرة.