جوجل تطلق LMEval لإختبار وأنظمة تقييم النماذج اللغوية والمتعددة الوسائط بمعايير موحدة
أطلقت شركة جوجل إطارًا مفتوح المصدر يُعرف باسم LMEval، وهو مصمم لتسهيل مقارنة النماذج الكبرى للذكاء الاصطناعي من شركات مختلفة. وفقًا لجوجل، يتيح LMEval لباحثي ومطوري الذكاء الاصطناعي تقييم النماذج مثل GPT-4o، Claude 3.7 Sonnet، Gemini 2.0 Flash، وLlama-3.1-405B بعملية موحدة ومتناسقة. المقارنة بين النماذج الجديدة للذكاء الاصطناعي كانت دائمًا أمرًا معقدًا، حيث أن كل مزود يستخدم واجهات برمجة تطبيقات (APIs) وأنواع بيانات وتكوينات مقاييس خاصة به، مما يجعل التقييمات المقارنة بطيئة ومعقدة. يعمل LMEval على توحيد هذه العملية—بمجرد إعداد مقاييس، يمكن تطبيقها على أي نموذج مدعوم بجهد محدود، بغض النظر عن الشركة المصنعة له. مقاييس متعددة الوسائط وأدوات السلامة يدعم LMEval أيضًا مقاييس الصور والكود، بالإضافة إلى النصوص. تؤكد جوجل أن إضافة تنسيقات مدخلات جديدة هو أمر سهل. يمكن للنظام التعامل مع مجموعة متنوعة من أنواع التقييم، بدءًا من الأسئلة ذات الإجابات الثنائية أو الخيارات المتعددة وحتى إنشاء النصوص بطريقة حرة. كما يكتشف LMEval ما يُعرف بـ "الاستراتيجيات الإvasive"، حيث تتجنب النماذج إعطاء إجابات مباشرة لتجنب إنتاج محتوى مشكل أو محفوف بالمخاطر. تظهر درجات السلامة التي تم اشتقاقها بواسطة Giskard مدى نجاح النماذج المختلفة في تجنب المحتوى الضار المحتمل. تعني النسب المئوية الأعلى درجات أعلى في السلامة. التوافق بين المنصات يعمل LMEval على إطار عمل LiteLLM، الذي يُبسط الاختلافات بين واجهات برمجة التطبيقات من مزودين مثل جوجل، OpenAI، Anthropic، Ollama، وهوغينغ فايس. هذا يعني أن نفس الاختبار يمكن تشغيله عبر منصات متعددة دون الحاجة إلى إعادة كتابة أي شيء. من أهم الميزات التي تتميز بها LMEval هي ما تطلق عليه جوجل "التقييم التدريجي". بدلاً من إعادة تشغيل مجموعة الاختبارات بأكملها عند إضافة نموذج جديد أو سؤال جديد، يقوم LMEval فقط بالاختبارات الإضافية اللازمة. هذا يوفر الوقت ويقلل من تكاليف الحوسبة. كما يستخدم النظام محركًا متعدد الخيوط لتسريع الأمور عبر تشغيل حسابات متعددة بشكل متوازي. أدوات التحليل البصري تشمل LMEval أداة تحليل بصرية تُعرف بـ LMEvalboard، وهي مصممة لتحليل النتائج. يمكن لهذه لوحة التحكم توليد الرسوم البيانية الدائرية لتوضيح أداء النماذج في فئات مختلفة، ويمكن للمستخدمين الغوص في التفاصيل للتعرف على أخطاء النماذج الفردية. كما تسمح LMEvalboard بالمقارنات المباشرة بين النماذج، بما في ذلك العرض البياني جانبيًا لجانب لمقارنة أدائها على أسئلة معينة. تتوفر كود المصدر والمذكرات العينة على منصة GitHub، مما يتيح للمطورين والباحثين الوصول إليها واستخدامها بشكل مفتوح ومشترك.
