MetaSAug: تعزيز دلالي متعدد المستويات للتعرف البصري على التوزيعات الطويلة الذيل

تُظهر بيانات التدريب الواقعية عادةً توزيعًا طويل الذيل، حيث يكون لدى فئات الأغلبية عدد كبير جدًا من العينات مقارنةً بالفئات الأقلية الباقية. يؤدي هذا التوازن غير المتكافئ إلى تدهور أداء خوارزميات التعلم المراقب التقليدية المصممة للفئات المتوازنة في مجموعات التدريب. في هذا البحث، نعالج هذه المشكلة من خلال تعزيز الفئات الأقلية باستخدام خوارزمية توليد بيانات تكميلية ذات معنى ضمني (ISDA) التي تم اقتراحها حديثًا، والتي تُنتج عينات مُعدّلة متنوعة من خلال نقل الميزات العميقة على طول العديد من الاتجاهات ذات المعنى المعنوي. ومن المهم الإشارة إلى أن ISDA تُقدّر الإحصائيات الشرطية حسب الفئة للحصول على هذه الاتجاهات المعنوية، لكننا وجدنا أنها غير فعّالة عند تطبيقها على الفئات الأقلية بسبب نقص بيانات التدريب. ولذلك، نقترح منهجية جديدة لتعلم اتجاهات معنوية محولة تلقائيًا باستخدام التعلم التمثيلي (meta-learning). وبشكل دقيق، يتم تحسين استراتيجية التكبير تدريجيًا أثناء التدريب، بهدف تقليل الخسارة على مجموعة تحقق متوازنة صغيرة، والتي تُقاس تقريبًا من خلال خطوة تحديث تمثيلية (meta update step). وقد أثبتت النتائج التجريبية الواسعة على مجموعات CIFAR-LT-10/100، وImageNet-LT، وiNaturalist 2017/2018 فعالية منهجنا.