هل يعلم الكاتب أفضل من غيره؟ مؤتمر ذكاء اصطناعي رائد يطلب تقييمًا ذاتيًا للورقات في مواجهة فيضان الأبحاث
تواجه المؤتمرات العلمية الرائدة في مجال الذكاء الاصطناعي تحديًا متزايدًا نظرًا لارتفاع عدد الورقات المقدمة، حيث شهدت بعض الفعاليات نموًا في التسجيلات أكثر من عشر مرات خلال العقد الماضي. ويرجع هذا التضخم ليس فقط إلى التوسع المتسارع في أبحاث الذكاء الاصطناعي عالميًا، بل أيضًا إلى تكرار تقديم نفس الباحثين لعدة أوراق في نفس المؤتمر، ما يعقد مهمة التقييم والاختيار. ويوضح بوكسين سو، عالم رياضيات في جامعة بنسيلفانيا، أن هذا التحدي يستدعي حلولًا مبتكرة لضمان جودة التقييم وتمييز الأبحاث الأكثر تأثيرًا. في دراسة نُشرت على منصة arXiv في أكتوبر الماضي، قدم سو وفريقه نظامًا يطلب من الباحثين الذين يقدّمون أكثر من ورقة تقييمًا ذاتيًا لعملهم، بحيث يصنّفون أوراقهم حسب الجودة والتأثير المتوقع. وتُستخدم هذه التصنيفات كمصدر مرجعي مُقابل لآراء المراجعين المستقلين، الذين لا يرون التصنيفات الذاتية، بهدف تقييم دقة التقديرات الذاتية. تم اختبار النظام على 2,592 ورقة قدمها 1,342 باحثًا للمؤتمر الدولي لتعلم الآلة ICML 2023 في هونولولو، وهُو أحد أبرز المؤتمرات في مجال الذكاء الاصطناعي. وبعد 16 شهرًا، قيّم الباحثون الأثر الحقيقي للورقات من خلال تتبع عدد الاقتباسات، وقارنوها مع التصنيفات المُحدّثة بناءً على تقييمات المراجعين. ووجد الفريق أن الأوراق التي حصلت على أعلى تقييم ذاتي تلقّت ضعف عدد الاقتباسات مقارنة بالأوراق ذات التقييم الأدنى، ما يشير إلى أن التصنيفات الذاتية تمثل مؤشرًا قويًا على التأثير المستقبلي. كما أظهرت التصنيفات المُعدّلة بناءً على تقييمات المراجعين دقة أعلى في تمثيل الجودة الحقيقية للعمل. سيكون مؤتمر ICML 2026، المقرر عقده في سول، أول فعالية تُطبّق هذا النظام رسميًا، بحسب سو، الذي يُعدّ عضوًا في لجنة النزاهة في المؤتمر. ويرى أن هذه الطريقة يمكن تعميمها على المؤتمرات الأخرى، لكنها تكون أكثر فائدة في مجال الذكاء الاصطناعي نظرًا لحجم التسجيلات المتعددة، حيث وجدت الدراسة أن أكثر من 75% من الورقات المقدمة في ICML 2023 شملت باحثين قدموا أكثر من ورقة. لكن بعض الخبراء يُبديون ترددًا. نihar شاه من جامعة كارنيغي ميلون يصف الفكرة بأنها "مبتكرة ورائعة"، لكنه يشك في قدرة الباحثين على تقييم تأثير أوراقهم بدقة، معتبرًا أن النتائج قد تكون نتيجة للمنهجية المستخدمة، وليس بالضرورة انعكاسًا حقيقيًا للواقع. أما إيميا بييرسون من جامعة كاليفورنيا في بيركلي، فترى أن التصنيف الذاتي يُعدّ مصدرًا قيمًا للإدخال، خاصة أن الباحثين غالبًا ما يكونون على دراية أعمق بقيمة أوراقهم، لكنها تحذر من احتمال تلاعب الباحثين بالنظام، مثل رفع تقييم ورقة ضعيفة لتعويض تقييم سلبي من المراجعين. رغم التحفظات، يُعتبر هذا النهج خطوة مهمة نحو تحسين كفاءة التقييم في عصر الفيضان البحثي، وربما يُشكّل نموذجًا يُحتذى به في المستقبل.
