CTO من LMArena يتحدث عن نماذج الذكاء الاصطناعي وراء نموذج Google Nano Banana
أطلق باحثون من جامعة كاليفورنيا في بيركلي منصة "LMArena" في 2023 كمشروع بحثي يهدف إلى تقييم نماذج الذكاء الاصطناعي بطريقة تفاعلية، بعد ظهور نماذج مثل ChatGPT وLlama 1. بدأ المشروع باسم "Chatbot Arena"، حيث يُسمح للمستخدمين بمقارنة نماذج الذكاء الاصطناعي عبر طرح أسئلة وتصويت على الأفضلية، مما يُكوّن تصنيفًا تفاعليًا يعكس تفضيلات المستخدمين الحقيقيين. باتت المنصة اليوم تضم أكثر من 3 ملايين مستخدم شهريًا، بحسب ويلين تشيانغ، المدير التقني لـ LMArena، الذي يشاركها التأسيس مع أندرياس أنيستاسيوس أنجيلوبولوس (الرئيس التنفيذي) وإون ستويكا، أحد مؤسسي شركتي Databricks وAnyscale. شهدت المنصة ارتفاعًا هائلاً في الزيارات في أغسطس، بعد انتشار نموذج "Nano Banana" المُستخدم في التوليد النصي-الصوري وتحرير الصور، والذي أثار إعجاب المستخدمين بجودة إنتاجه. وفقًا لتصويت المستخدمين، احتل Nano Banana المرتبة الأولى في تصنيف التوليد الصوري، وتم التأكد لاحقًا من أن النموذج يعود إلى جوجل، ويدل على أنه نسخة من Gemini 2.5 Flash. تشمل التصنيفات في LMArena مجالات متعددة: في البرمجة، يتصدر نموذج Claude، بينما يُعتبر Gemini منافسًا قويًا في الإبداع. وفي مجال الرؤية الحاسوبية، يُظهر Gemini وسلسلة GPT أداءً متميزًا. أما في التوليد الصوري، فقد أصبحت المنصة منصة رئيسية لتقييم النماذج الحديثة. يُشير تشيانغ إلى أن التحدي الأكبر اليوم ليس في تطوير نماذج أسرع، بل في تقييمها بنماذج تعكس الاستخدامات الواقعية. لذلك، أطلقت المنصة مؤخرًا معيارًا جديدًا يُسمى "WebDev"، يُطلب فيه من النموذج بناء موقع ويب، لقياس قدرته على دعم مهندسين في إنشاء نماذج أولية بسرعة. ويؤكد أن النماذج يجب أن تُقاس بناءً على قدرتها على تحسين كفاءة المهنيين، مثل الأطباء أو المحامين، بإنقاذ ساعات من العمل اليومي. بالنسبة لـ Meta، يرى تشيانغ أن الفريق الجديد لذكاء اصطناعي فائق (Superintelligence Labs) يعمل على تطوير "نموذج شامل" يدمج مختلف الوسائط (نص، صور، صوت) في نموذج واحد، وهو اتجاه ملحوظ في الصناعة. ويشير إلى أن شركات مثل جوجل وMeta تستخدم LMArena ليس فقط للترويج، بل لاستخلاص تغذية راجعة حقيقية من المستخدمين، حيث تُرسل لهم نسخًا مختلفة من نماذجها وتُحصل على تقارير تفصيلية عن أدائها في مجالات محددة. وإذ يعلق على تقرير متحف MIT الذي يشير إلى أن معظم الشركات لم تحقق عائدًا من استثماراتها في الذكاء الاصطناعي، يؤكد تشيانغ أن السبب يكمن في غياب التقييم القائم على الاستخدام الفعلي. ويُبقي LMArena على مسؤولية توثيق هذه الفجوة، ويسعى لتوسيع نطاق التقييم إلى مجالات مثل القانون والطب والتعليم، لفهم حدود النماذج وتحسينها بناءً على بيانات حقيقية.