مُعضلة وَحَقْ-أَمُولِي: تأتي التفاديّات بأشكال متعددة، حيث يؤدي التخفيف من واحدة إلى تكبير الأخرى

تم اكتشاف أن نماذج التعلم الآلي تتعلم طرقًا مختصرة — أي قواعد قرار غير مقصودة لا يمكن تعميمها — مما يُضعف موثوقية هذه النماذج. وقد حاولت الدراسات السابقة معالجة هذه المشكلة بافتراض ضعيف، وهو أن هناك خطأً مختصرًا واحدًا فقط في بيانات التدريب. في الواقع، تحتوي الصور الواقعية على العديد من المؤشرات البصرية المتنوعة، بدءًا من الخلفية وصولاً إلى النسيج. ويعتبر فهم ما إذا كانت الأساليب الحالية قادرة على التغلب على عدة طرق مختصرة أم تفشل في مواجهة ما يشبه لعبة "واك-أ-مول" — حيث يُضعف التخفيف من طريقة مختصرة واحدة الاعتماد على الطرق الأخرى — أمرًا جوهريًا لتعزيز موثوقية أنظمة الرؤية الحاسوبية. وللتغلب على هذه النقص، نقترح معيارين جديدين: 1) مجموعة بيانات UrbanCars، التي تحتوي على مؤشرات مزيفة مُتحكم بها بدقة؛ و2) ImageNet-W، وهي مجموعة تقييم مبنية على ImageNet، تُستخدم لاختبار طريقة مختصرة اكتشفناها تؤثر تقريبًا على كل نموذج حديث في الرؤية الحاسوبية. وبإضافة النسيج والخلفية، تتيح لنا ImageNet-W دراسة ظهور عدة طرق مختصرة نتيجة التدريب على الصور الطبيعية. ووجدنا أن نماذج الرؤية الحاسوبية، بما في ذلك النماذج الأساسية الكبيرة — بغض النظر عن مجموعة التدريب أو البنية المعمارية أو نوع الإشراف — تواجه صعوبات كبيرة عندما تكون هناك عدة طرق مختصرة متعددة. وحتى الأساليب المصممة صراحةً لمكافحة هذه الطرق المختصرة تعاني من مشكلة "واك-أ-مول" نفسها. ولحل هذه التحديات، نقترح طريقة بسيطة لكنها فعالة تُسمى Last Layer Ensemble، والتي تُخفف من تأثير الطرق المختصرة المتعددة دون أن تؤدي إلى سلوك "واك-أ-مول". تُظهر نتائجنا أن التخفيف من الطرق المختصرة المتعددة يُعد تحديًا مُهملًا، لكنه بالغ الأهمية لتعزيز موثوقية أنظمة الرؤية الحاسوبية. تم إصدار مجموعات البيانات والكود: https://github.com/facebookresearch/Whac-A-Mole.