HyperAIHyperAI

Command Palette

Search for a command to run...

منصات ترتيب نماذج الذكاء الاصطناعي الكبيرة قد تكون غير موثوقة، دراسة تكشف عن حساسية عالية لنتائج التصنيف

تُظهر دراسة أجرها باحثون من معهد ماساتشوستس للتكنولوجيا (MIT) أن منصات التصنيف التي تُصنّف نماذج الذكاء الاصطناعي الكبيرة (LLMs) قد تكون غير موثوقة، إذ يمكن لعدد ضئيل جدًا من التقييمات المُجمعة من المستخدمين أن يُغيّر نتائج التصنيف بشكل جذري. ويعتمد العديد من الشركات على هذه المنصات لاختيار أفضل نموذج لمهام مثل تلخيص التقارير أو معالجة استفسارات العملاء، لكن الباحثين وجدوا أن التصنيف لا يعكس بالضرورة الأداء الحقيقي أو المستقر للنموذج في المهام الواقعية. تم جمع البيانات عبر منصات تُطلب من المستخدمين مقارنة ناتج نموذجين على نفس الاستفسار، ثم اختيار الأفضل. تُستخدم هذه النتائج لحساب التصنيفات النهائية. لكن الفريق، بقيادة البروفيسورة تامارا برودرِك من قسم هندسة الكهرباء وعلوم الحاسوب في MIT، اكتشف أن حذف نسبة ضئيلة جدًا من التقييمات – مثل حذف اثنين فقط من أكثر من 57 ألف تقييم – كان كافيًا لتغيير النموذج المُصنّف كأفضل. في بعض الحالات، تغير التصنيف بفعل 0.0035٪ فقط من البيانات. لحل هذه المشكلة، طوّر الباحثون طريقة سريعة وفعّالة لتحليل تأثير كل تقييم على النتيجة النهائية، مما يسمح بتحديد "التصويتات المؤثرة" التي قد تُشوّش النتائج. هذه الطريقة تعتمد على تقنيات رياضية مبنية على أبحاث سابقة، وتُقدّم نتائج موثوقة دون الحاجة إلى تحليل كل التوافيق الممكنة، وهو أمر غير عملي بسبب حجم البيانات. النتائج أظهرت أن بعض التصويتات المؤثرة قد تكون نتيجة أخطاء بشرية، مثل النقر الخاطئ أو قرار غير مدروس، رغم وجود إجابة واضحة. هذا يُبرز خطر اعتماد قرارات استراتيجية على بيانات غير موثوقة. الباحثون يقترحون تحسين جودة البيانات من خلال جمع معلومات إضافية مثل مستوى ثقة المستخدم في تقييمه، أو استخدام مُرَشِّدين بشريين لفحص التقييمات. كما يشجعون على تطوير أساليب أكثر صلابة في جمع وتحليل التفضيلات البشرية. الدراسة، التي ستُقدَّم في مؤتمر International Conference on Learning Representations، تُعد تحذيرًا مهمًا للمستخدمين: لا يمكن الاعتماد على التصنيفات كمقياس مطلق، خاصةً عند اتخاذ قرارات تؤثر على العمليات التجارية أو الخدمات الحيوية. كما أشادت خبيرة في الحوسبة، جيسيكا هولمان من جامعة نورثويسترن، بالعمل لتقديمه طريقة عملية للكشف عن التأثيرات الضئيلة التي قد تُضعف نتائج التصنيف، وتحث على تطوير أساليب أكثر دقة في جمع التفضيلات البشرية. تم تمويل البحث جزئيًا من مكتب الأبحاث البحريّة، وMIT-IBM Watson AI Lab، والمؤسسة الوطنية للعلوم، أمازون، وجائزة بذور CSAIL.

الروابط ذات الصلة

منصات ترتيب نماذج الذكاء الاصطناعي الكبيرة قد تكون غير موثوقة، دراسة تكشف عن حساسية عالية لنتائج التصنيف | القصص الشائعة | HyperAI