التعلم التراكمي المتسق محليًا وعالميًا للخلط في التعرف البصري ذي الذيل الطويل

في هذا البحث، هدفنا هو تصميم نموذج تعلم بسيط للتعرف البصري ذي الذيل الطويل، والذي يحسن ليس فقط متانة مستخرج الميزات ولكن أيضًا يخفف من التحيز الذي يظهره المصنف نحو الفئات الرئيسية مع تقليل مهارات التدريب والتكاليف. نقترح استراتيجية تدريب فعالة في مرحلة واحدة للتعرف البصري ذي الذيل الطويل تسمى التعلم التراكمي للتوافق بين الخليط العالمي والمحلّي (Global and Local Mixture Consistency cumulative learning - GLMC). أفكارنا الأساسية تتضمن نقطتين: (1) خسارة التوافق بين الخليط العالمي والمحلّي تحسّن متانة مستخرج الميزات. بشكل خاص، ننشئ دُفعتين مُعززتين باستخدام MixUp العالمي وCutMix المحلّي من نفس بيانات الدفعة، ثم نستخدم الشبه الجيباني لتصغير الفرق. (2) خسارة إعادة وزن العلامات الناعمة للتراكم الرأس والذيل تخفف مشكلة التحيز نحو الفئات الرئيسية. نعيد وزن العلامة المختلطة للفئة الرأس-الذيل باستخدام تكرارات الفئات التجريبية للبيانات ذات الذيل الطويل، ثم نوازن الخسارة التقليدية والخسارة المعاد توزيعها بمعامل يتم جمعه عبر الحقب الزمنية. طريقة عملنا حققت دقة رائدة في مجالها على مجموعات البيانات CIFAR10-LT، CIFAR100-LT، وImageNet-LT. التجارب الإضافية على ImageNet المتوازن وCIFAR أثبتت أن GLMC يمكن أن يحسّن بشكل كبير قابلية التعميم للمستخرجين الأساسيين. تم جعل الكود متاحًا للجمهور على الرابط https://github.com/ynu-yangpeng/GLMC.