HyperAIHyperAI

Command Palette

Search for a command to run...

اكتشاف "أخطاء خبيثة" مخفية في اختبارات الذكاء الاصطناعي تهدد مصداقية التقييمات العالمية

بعد مراجعة آلاف المعايير المستخدمة في تطوير الذكاء الاصطناعي، كشف فريق من جامعة ستانفورد أن ما يصل إلى 5% منها قد تحتوي على عيوب جوهرية تؤثر على مصداقية التقييمات. هذه المعايير، التي تُستخدم لقياس كفاءة النماذج في فهم اللغة أو التعرف على الصور أو حل المشكلات الطبية، تُعدّ حاسمة في تحديد ما إذا كان نموذج جديد أفضل من السابق. لكن مع تعدد هذه المعايير وتنوعها، يبرز سؤال جوهري: أيها موثوق؟ وهل جميعها متساوية في الجودة؟ في ورقة علمية عُرضت في مؤتمر NeurIPS 2025، قاد الباحثان سانمي كوييJO، الأستاذ المساعد في علوم الحاسوب بستانفورد، وسونغ تروونغ، الطالب الدكتوراه في مختبر "الذكاء الاصطناعي الموثوق" (STAIR) بستانفورد، تحليلًا رياضيًا دقيقًا لآلاف المعايير، ووجدوا أن ما يقارب 1 من كل 20 منها يحتوي على أخطاء جوهرية. وتم نشر الورقة على منصة arXiv. يصف الباحثان هذه الأخطاء بـ"العُقد الرائعة" (fantastic bugs)، مُستلهمين مصطلح "الحيوانات الرائعة" من السينما، لكن التداعيات حقيقية وخطيرة. فالأخطاء في المعايير يمكن أن تُوهم بتحسن أداء نموذج ضعيف، أو تُعاقب نموذجًا متفوقًا، ما يُربك مسارات البحث والتطوير. وتؤثر هذه الأخطاء على قرارات حاسمة، مثل تخصيص التمويل أو اتخاذ قرارات إصدار النماذج، ما قد يؤدي إلى تضييع الموارد على نماذج غير مُوثوقة. تشمل أشكال هذه الأخطاء تناقضات منطقية، وصيغ مبهمة، وتمييزات ثقافية، أو حتى أخطاء في التنسيق — كأن تُرفض إجابة "5 دولارات" رغم صحتها عندما تكون الإجابة الصحيحة "5$". في مثال مذكور، ارتفع نموذج DeepSeek-R1 من المرتبة الثالثة من الأسفل إلى الثانية بعد تعديل المعيار. للكشف عن هذه الأخطاء، استخدم الفريق منهجًا يجمع بين الإحصاءات النظرية ونموذج لغوي كبير (LLM) لتحديد الأسئلة الاستثنائية التي يفشل فيها عدد كبير من النماذج. ثم قام النموذج بتحليل الأسئلة وتقديم تبريرات لتصنيفها كمُشكِّكة. أظهرت النتائج دقة بنسبة 84% في تحديد الأسئلة الخاطئة عبر تسع معايير شهيرة، ما يعني أن أكثر من 80% من الأسئلة المُدرجة للنَّظر البشري كانت فعلاً بها عيوب. الباحثان يعملان الآن مع مطوري المعايير لتصحيح أو إزالة هذه العيوب، ويدعون إلى التخلي عن نهج "النشر ثم النسيان" نحو نموذج مستدام لإدارة المعايير. رغم ترحيب معظم الخبراء بالفكرة، إلا أن التزامهم بالتحديث المستمر ما زال محدودًا. يأمل الفريق أن يُحدث هذا الإطار تغييرًا جوهريًا في معايير التقييم العالمية، ما يُعزز دقة التقييم، ويُحسّن توزيع الموارد، ويُعزز الثقة في أنظمة الذكاء الاصطناعي. مع تعمق الذكاء الاصطناعي في مجالات حيوية مثل الرعاية الصحية والنقل، يرى كوييJO أن تأثير هذه التحسينات قد يكون عميقًا، ويدفع نحو تطوير أنظمة أكثر أمانًا، موثوقية، وقوة.

الروابط ذات الصلة

اكتشاف "أخطاء خبيثة" مخفية في اختبارات الذكاء الاصطناعي تهدد مصداقية التقييمات العالمية | القصص الشائعة | HyperAI