إعادة التسمية لـ ImageNet: من التسميات الفردية إلى التسميات المتعددة، ومن التسميات الشاملة إلى التسميات الموضعية

يُعدّ ImageNet على الأرجح أكثر معايير تصنيف الصور شيوعًا، لكنه أيضًا المعيار الذي يحتوي على مستوى كبير من ضجيج التسميات. أظهرت دراسات حديثة أن العديد من العينات تحتوي على فئات متعددة، على الرغم من افتراض أنها معيار تسمية أحادية الفئة. وعليه، اقترح الباحثون تحويل تقييم ImageNet إلى مهمة متعددة التسميات، مع تسميات متعددة شاملة لكل صورة. ومع ذلك، لم يتم إصلاح مجموعة التدريب، على الأرجح بسبب تكلفة التسمية الكبيرة. نحن نرى أن عدم التوافق بين التسميات الأحادية والصور التي تُعتبر فعليًا متعددة التسميات يُعدّ مشكلة مماثلة، إن لم تكن أسوأ، في بيئة التدريب، حيث يتم تطبيق قص عشوائي للصور. فباستخدام التسميات الأحادية، قد يحتوي القص العشوائي لصورة ما على كائن كامل مختلف عن الكائن الحقيقي، مما يؤدي إلى توجيه غير دقيق أو مشوّش أثناء التدريب. لذلك، قمنا بإعادة تسمية مجموعة تدريب ImageNet باستخدام تسميات متعددة. وللتغلب على عائق تكلفة التسمية، استخدمنا فئة تصنيف صور قوية، تم تدريبها على مصدر إضافي من البيانات، لتوليد التسميات المتعددة. واستخدمنا التنبؤات متعددة التسميات على مستوى البكسل قبل طبقة التجميع النهائية، بهدف استغلال إشارات التوجيه الإضافية المحددة مكانياً. ونتيجةً لتدريب النموذج على العينات المُعاد تسميتها، تحسّنت أداء النماذج بشكل عام. فقد حقق نموذج ResNet-50 دقة تصنيف أعلى بنسبة 78.9% على ImageNet باستخدام تسميات متعددة مُحددة مكانياً، والتي يمكن رفعها إلى 80.2% باستخدام تنظيم CutMix. ونُظهر أن النماذج المدربة باستخدام تسميات متعددة مُحددة مكانياً تتفوق أيضًا على النماذج الأساسية في مهام التعلم المن転 إلى كشف الكائنات والتقسيم الواقعي، بالإضافة إلى مجموعة متنوعة من معايير المقاومة. ومتاح في {https://github.com/naver-ai/relabel_imagenet} مجموعة تدريب ImageNet المُعاد تسميتها، ووزن النموذج المُسبق التدريب، والكود المصدري.