اختبارات الذكاء الاصطناعي تصبح عنق الزجاجة الحاسمة
تتحول عمليات تقييم الذكاء الاصطناعي إلى التحدي الحسابي الأبرز، حيث تجاوزت تكلفتها عتبةً تحول دون قدرة الكثير من الباحثين على إجراء تقييمات موثوقة. كشف تقرير حديث صادر عن Holistic Agent Leaderboard أن تشغيل تقييمات لـ 21,730 عملية عبر تسعة نماذج وتسعة معايير كلفة نحو 40,000 دولار، في حين قد تتجاوز تكلفة تشغيل واحد على نموذج متطور 2,800 دولار دون استخدام التخزين المؤقت. بدأت هذه المشكلة مع النماذج الثابتة، حيث أظهرت دراسات سابقة أن التكاليف كانت مرتفعة حتى قبل ظهور الوكلاء الأذكياء. ومع ذلك، فإن التكاليف في تقييمات الوكلاء أعلى بكثير وأكثر تعقيداً، حيث تتأثر بشدة باختيار السقالات التقنية وميزانية الرموز المستخدمة. في بعض الحالات، تظهر فروق في التكلفة تصل إلى 33 ضعفاً لنفس المهمة البسيطة. الأهم من ذلك، أن الإنفاق المرتفع لا يضمن نتائج أفضل، حيث لوحظ فرق في التكلفة nine أضعاف بينما كان فرق الدقة فقط نقطتين مئويتين. تزداد المشكلة تعقيداً في المجالات التي تتطلب تدريب النماذج كجزء من التقييم، مثل الذكاء الاصطناعي العلمي. في مشاريع مثل The Well، يمكن أن تكلف عملية تقييم بنية معمارية واحدة حوالي 960 ساعة من وحدات معالجة رسومية من نوع H100، في حين تصل عملية المسح الكامل إلى 3,840 ساعة. هذا يعني أن تكلفة التقييم قد تتجاوز تكلفة التدريب نفسها، وهو ما يعكس نمطاً جديداً في مجالات تعلم الآلة العلمي. عندما ننتقل إلى دقة النتائج وموثوقيتها، ترتفع التكاليف بشكل مضاعف. فالتحقق من الاعتمادية يتطلب تكرار التجارب عدة مرات، مما يحول التكلفة من 40,000 دولار إلى 320,000 دولار لتقييم موثوق في بعض المنصات. هذا الواقع يخلق فجوة كبيرة بين المؤسسات التي تملك الموارد المالية الضخمة وتلك الأكاديمية الأصغر، حيث لم يعد التقييم مجرد خطوة روتينية بل أصبح عائقاً مالياً يحسم من يملك الحق في تقييم النماذج المتطورة. تشير البيانات إلى أن القوائم التصنيفية التي تتجاهل التكلفة تشجع على الهدر، حيث يمكن للباحثين صرف موارد أكبر لتحسين رقم الدقة دون تحقيق فائدة حقيقية. أما الحلول الحالية مثل تصغير حجم البيانات أو استخدام فلاتر الصعوبة، فهي فعالة جزئياً مع التقييمات الثابتة، لكنها تفشل في مواكبة تعقيد تقييمات الوكلاء والتدريب التفاعلي. الخلاصة هي أن مجال الذكاء الاصطناعي يحتاج إلى إعادة هيكلة استراتيجية. لا بد من اعتماد معايير لتوثيق ومشاركة بيانات التقييم بالكامل، مما يسمح بإعادة استخدام النتائج وتجنب دفع التكلفة مرتين. مشاريع مثل "كل تقييم أبداً" التي تهدف إلى توحيد صيغ البيانات وتبسيط مشاركتها، تمثل خطوة جوهرية لتقليل الأعباء المالية. دون تغيير هذا المنهج، سيظل التقييم موثوقاً به من قبل قلة فقط، بينما ستفقد المجتمع العلمي القدرة على التحقق المستقل من قدرات النماذج المتطورة.
