منذ 15 أيام

Benchopt: معايير تقييم مُحسَّنة قابلة للتكرار والكفاءة والتعاونية

Thomas Moreau, Mathurin Massias, Alexandre Gramfort, Pierre Ablin, Pierre-Antoine Bannier, Benjamin Charlier, Mathieu Dagréou, Tom Dupré la Tour, Ghislain Durif, Cassio F. Dantas, Quentin Klopfenstein, Johan Larsson, En Lai, Tanguy Lefort, Benoit Malézieux, Badr Moufad, Binh T. Nguyen, Alain Rakotomamonjy, Zaccharie Ramzi, Joseph Salmon, Samuel Vaiter

عرض تفاصيل الورقة البحثية

Benchopt: معايير تقييم مُحسَّنة قابلة للتكرار والكفاءة والتعاونية

الملخص

التحقق العددي يُعدّ في صميم بحوث التعلم الآلي، لأنه يمكّن من تقييم التأثير الفعلي للطرق الجديدة، والتحقق من التوافق بين النظرية والتطبيق. ومع ذلك، فإن التطور السريع للحقل يطرح عدة تحديات: فالمُختبرون يواجهون تعددًا هائلاً من الطرق المُقارنة، ونقصًا في الشفافية والتوافق حول أفضل الممارسات، إلى جانب العمل المُتعب في إعادة التنفيذ. وبسبب ذلك، يكون التحقق غالبًا جزئيًا، ما قد يؤدي إلى استنتاجات خاطئة تُبطئ من تقدم البحث. نقترح "بنتشوبت" (Benchopt)، إطارًا تعاونيًا لتمكين أتمتة وتنقيح ونشر معايير المقارنة في تحسين التعلم الآلي عبر لغات برمجة وبنية هاردوير متنوعة. يُبسط بنتشوبت عملية المقارنة للمجتمع من خلال توفير أداة جاهزة لتشغيل التجارب ومشاركتها وتوسيعها. ولإثبات مدى استخدامه الواسع، نُظهر معايير مقارنة على ثلاث مهام تعلّم قياسية: الانحدار اللوجستي المُنظم بـ$\ell_2$، ونماذج لاسو (Lasso)، وتدريب نموذج ريزنت18 (ResNet18) لتصنيف الصور. تُبرز هذه المعايير نتائج عملية مهمة تُقدّم رؤية أكثر تفصيلًا حول الحالة الراهنة لهذه المشكلات، وتُظهر أن التفاصيل الدقيقة هي التي تُشكّل الفرق عند التقييم العملي. ونأمل أن يُسهم بنتشوبت في تعزيز العمل التعاوني داخل المجتمع، وبالتالي تحسين قابلية إعادة التحقق من النتائج البحثية.