HyperAI
Back to Headlines

دراسة تكشف عن تحيزات محتملة في تقييمات Chatbot Arena لصالح شركات AI الكبرى

منذ شهر واحد

دراسة تتهم "LM Arena" بمساعدة كبرى مختبرات الذكاء الاصطناعي على تحقيق نقاط أعلى في تصنيفاتها كشفت دراسة جديدة من مختبر الذكاء الاصطناعي "Cohere" بالتعاون مع جامعات ستانفورد وماساتشوستس للتكنولوجيا (MIT) ومعهد أبحاث الذكاء الاصطناعي (Ai2) أن منظمة "LM Arena"، التي تقف خلف المنصة الشهيرة "Chatbot Arena" للتصنيف الجماعي للذكاء الاصطناعي، قد ساعدت مجموعة مختارة من الشركات الرائدة في مجال الذكاء الاصطناعي على تحقيق نقاط أعلى في تصنيفاتها، على حساب شركات أخرى منافسة. وفقًا للباحثين، سمحت "LM Arena" لشركات مثل "Meta"، "OpenAI"، "Google"، و"Amazon" بإجراء اختبارات خاصة لعدة نماذج من الذكاء الاصطناعي، ثم عدم نشر نقاط النماذج الأسوأ أداءً. هذا الأمر سهل على هذه الشركات الوصول إلى المراكز الأولى في تصنيفات المنصة، بينما لم تُتاح هذه الفرصة لجميع الشركات المشاركة. قالت سارة هوكير، نائب رئيس أبحاث الذكاء الاصطناعي في "Cohere" والمعدة المشاركة للدراسة، في مقابلة مع موقع "TechCrunch": "فقط عدد قليل من الشركات تم إبلاغهم بأن الاختبارات الخاصة متاحة، وكان عدد الاختبارات الخاصة التي حصلت عليها بعض الشركات أكبر بكثير من الأخرى. هذا يعد نوعًا من التلاعب." تأسست "Chatbot Arena" عام 2023 كمشروع بحثي أكاديمي من جامعة كاليفورنيا بيركلي، وأصبحت المنصة مرجعًا رئيسيًا لشركات الذكاء الاصطناعي لاختبار أدائها. تعمل المنصة عبر عرض إجابات من نماذجين مختلفين جنبًا إلى جنب في "معركة"، ويطلب من المستخدمين اختيار الأفضل. تساهم الأصوات على مر الزمن في تحديد النقاط والترتيب النهائي للنموذج في قائمة التصنيف. وفقًا للدراسة، تمكنت "Meta" من إجراء أكثر من 27 اختبارًا خاصًا لنماذج الذكاء الاصطناعي المختلفة على "Chatbot Arena" بين يناير ومارس 2024، قبل إطلاق نموذجها "Llama 4". عند الإطلاق، أعلنت "Meta" فقط عن نقاط نموذج واحد، والذي جاء في المرتبة العالية في قائمة التصنيف. في رسالة إلكترونية إلى "TechCrunch"، قال مؤسس "LM Arena" وأستاذ جامعة بيركلي، آيون ستويكا، إن الدراسة مليئة بالـ"أخطاء" و"تحليل مشكوك فيه". وأضافت المنظمة في بيان لها أنه طالما أن مزودي النماذج يختارون إجراء اختبارات أكثر، فإن هذا لا يعني أن الشركات الأخرى تُعامل بشكل غير عادل. أشار الباحثون أيضًا إلى أنهم وجدوا دليلًا على أن "LM Arena" سمحت لشركات معينة، بما في ذلك "Meta"، "OpenAI"، و"Google"، باستخراج المزيد من البيانات من "Chatbot Arena" من خلال زيادة ظهور نماذجها في "معارك" النماذج. هذا الزيادة في معدل العينات أعطت هذه الشركات ميزة غير عادلة، كما يدعي الباحثون. أكد ستويكا أن الدراسة تعتمد على "التعرف الذاتي" لتحديد النماذج التي كانت تخضع لاختبارات خاصة، حيث قام الباحثون بطرح أسئلة عدة على النماذج لمعرفة مصدرها واعتمدوا على إجاباتها. ومع ذلك، قالت هوكير إن "LM Arena" لم تعارض نتائجهم الأولية عندما تواصلت معهم الدراسة. في أعقاب هذه الدراسة، دعت الباحثون "LM Arena" إلى تنفيذ تغييرات بهدف زيادة الشفافية والعدالة. على سبيل المثال، يمكن وضع حد أقصى واضح ومعلن لعدد الاختبارات الخاصة التي يمكن أن تقوم بها المختبرات، ونشر نقاط هذه الاختبارات. لكن "LM Arena" رفضت هذه الاقتراحات، مشيرة إلى أنها نشرت معلومات حول الاختبارات السابقة منذ مارس 2024، وأنه ليس من المنطقي نشر نقاط لMODELS غير متاحة للجمهور. بالإضافة إلى ذلك، اقترح الباحثون ضبط معدل العينات في "Chatbot Arena" لضمان ظهور جميع النماذج بنفس عدد "المعارك". وقد أبدت "LM Arena" استعدادها لهذا الاقتراح وصرحت بأنها ستفعل ذلك. قبل أسابيع من نشر هذه الدراسة، تم الكشف عن أن "Meta" قد قامت بتحسين أحد نماذج "Llama 4" لأجل "المحادثة" مما ساعد في تحسين ترتيبه في "Chatbot Arena". لكن الشركة لم تطلق النموذج المحسن، مما أدى إلى أداء أسوأ للنسخة العادية من النموذج. في وقت سابق من الشهر الجاري، أعلنت "LM Arena" عن إطلاق شركة خاصة لها، مع خطط لجمع رأس المال من المستثمرين. هذا الوضع يزيد من الريبة حول المنظمات الخاصة التي تقوم بتصنيف نماذج الذكاء الاصطناعي، وما إذا كانت تستطيع تقييم هذه النماذج دون تأثير الشركات الكبرى. تقييم الحدث من قِبل مختصين يرى العديد من المختصين في مجال الذكاء الاصطناعي أن هذه الدراسة تثير تساؤلات مهمة حول الشفافية والعدالة في منصات التصنيف. يؤكدون على أهمية وجود معايير واضحة ومتفق عليها لضمان نزاهة التقييم، خاصة في ظل التنافس الشديد بين الشركات في هذا المجال. نبذة تعريفية عن "LM Arena" "LM Arena" هي منظمة تأسست في عام 2023 كمشروع بحثي أكاديمي من جامعة كاليفورنيا بيركلي. تهدف إلى تطوير وتطبيق معايير موضوعية لتقييم نماذج الذكاء الاصطناعي من خلال منصتها "Chatbot Arena". رغم محاولاتها للحفاظ على الحياد، إلا أن هذه الدراسة تشير إلى وجود ثغرات في نظامها يمكن استغلالها من قبل الشركات الكبرى لتحقيق ميزة تنافسية غير عادلة.

Related Links