HyperAIHyperAI
منذ 17 أيام

WILDS: معيار للانزياحات التوزيعية في البيئات الطبيعية

Pang Wei Koh, Shiori Sagawa, Henrik Marklund, Sang Michael Xie, Marvin Zhang, Akshay Balsubramani, Weihua Hu, Michihiro Yasunaga, Richard Lanas Phillips, Irena Gao, Tony Lee, Etienne David, Ian Stavness, Wei Guo, Berton A. Earnshaw, Imran S. Haque, Sara Beery, Jure Leskovec, Anshul Kundaje, Emma Pierson, Sergey Levine, Chelsea Finn, Percy Liang
WILDS: معيار للانزياحات التوزيعية في البيئات الطبيعية
الملخص

تؤدي التغيرات في التوزيع — حيث يختلف توزيع البيانات المستخدمة في التدريب عن توزيع البيانات المستخدمة في الاختبار — إلى تدهور كبير في دقة أنظمة التعلم الآلي (ML) التي تُطبَّق في البيئات الواقعية. وعلى الرغم من انتشار هذه التغيرات في التطبيقات الواقعية، إلا أنها تُمثل تمثيلاً محدوداً في المجموعات البيانات التي تُستخدم على نطاق واسع في مجتمع التعلم الآلي اليوم. ولسد هذه الفجوة، نقدّم WILDS، وهي مجموعة معايير مُختارة من 10 مجموعات بيانات تعكس تنوعاً واسعاً من التغيرات في التوزيع التي تنشأ بشكل طبيعي في التطبيقات الواقعية، مثل التغيرات بين المستشفيات في تحديد الأورام؛ والتغيرات بين كاميرات المراقبة في رصد الحياة البرية؛ والتغيرات عبر الزمن والمكان في صور الأقمار الصناعية وخرائط الفقر. ونُظهر على كل مجموعة بيانات أن التدريب القياسي يؤدي إلى أداء أقل بكثير خارج التوزيع مقارنة بالأداء داخل التوزيع. ويظل هذا الفجوة قائمة حتى عند استخدام نماذج تم تدريبها باستخدام الطرق الحالية لمعالجة التغيرات في التوزيع، مما يبرز الحاجة إلى تطوير أساليب جديدة لتدريب النماذج بحيث تكون أكثر مقاومة لأنواع التغيرات في التوزيع التي تظهر في الممارسة العملية. ولتسهيل تطوير هذه الأساليب، نقدّم حزمة مفتوحة المصدر تُعَمِّل تحميل المجموعات البيانات تلقائياً، وتحتوي على هياكل نماذج وقيم معلمة افتراضية، وتحدد معايير التقييم بشكل موحد. يمكن الوصول إلى الكود والقوائم القيادية عبر الرابط: https://wilds.stanford.edu.